Retour sur le Pandaranol – Bilan 3/3

Posted by on juillet 17, 2011 in Focus | 19 comments

On termine cette session d’article sur le Pandaranol sur une note de bilan. Vous avez vu ici ou ailleurs, mes techniques et celles des concurrents, voici maintenant le billet de bilan sur non pas la forme mais plutôt le fond de ces techniques. Cette article est assez long, vous pouvez picorer les paragraphes dans l’ordre que vous souhaitez.

A votre bon coeur monsieur dame, un lien, un RT ou même un ticket restaurant

Ce concours aura bien démontré une chose : un lien depuis twitter est aussi demandé qu’un lien normal. Ceux qui ont suivi les derniers instants sur twitter ont vu la teneur des messages : « Merci de RT ce message » ou « Un cadeau pour ceux qui RT ce message ».

Bien loin de moi l’idée de dire qu’un tweet a le même pouvoir qu’un lien, toutefois, voici deux bonnes raisons que j’ai trouvé à chasser le RT :

  • Durant le concours Pandaranol, Google utilisait le flux de twitter pour mettre à jour ses résultats en direct. Ce faisant, certains pouvait voir leurs résultats modifiés lors d’une recherche sur Pandaranol et la page voyait son CTR augmenter, ce qui est un bon critère pour grapiller quelques places sur un mot clé où le CTR est quasi nul pour chacun des sites.
    Voilà pour l’explication quasi-rationnelle. L’explication plus mystique est, qu’à l’époque, Google utilisait le nombre de RT présent dans le flux twitter pour jouer sur ses résultats. Fait il pareil aujourd’hui ? Pas sur du tout…
  • La deuxième grande raison d’utiliser les RT est l’utilisation massive de twitterbot pour scraper et créer des pages au contenu unique. Un que je rencontre le plus souvent est « twitterbotpublish » qui liste tous les tweets possédant un certain hashtag et laisse les liens en dofollow (enfin le lien réduit). Certes, les liens sont de très faible qualité mais on obtient très rapidement une entrée massive de liens éphémères qui permettent d’indexer rapidement une page, comme une sorte de ping. J’avoue utiliser cette technique depuis quelques mois et l’indexation se fait assez rapidement, je n’ai même pas vu de changement après la perte du flux twitter.

Twitter est donc un outil performant qui peut jouer sur votre référencement. Même un compte sans ami peut permettre d’indexer des pages à condition d’avoir les bons hashtags. Si vous souhaitez creuser dans ce sens, plusieurs articles sont en train de sortir sur l’impact de twitter sur le search. Reste à voir si la donne va changer dans les mois à venir avec Google+.

Je n’ai pas fait le test avec Facebook car je crois que l’impact est beaucoup plus faible voir inexistant. Si je me trompe, vous pouvez vous exprimer dans les commentaires ou en privé.

Le contenu dupliqué est plus complexe qu’un copier coller

L’autre jour, je faisais une soumission à un annuaire qui souhaitait me supprimer mon site si jamais il trouvait une phrase dupliquée. Je trouve cela ridicule.

Même si le contenu dupliqué existe sur Google, sa détection et son traitement est beaucoup plus complexe que ce que la plupart des webmaster laissent entendre. J’ai de nombreuses preuves qui me permettent d’avancer cela, mais si on souhaite rester sur le concours en voici une seule : toutes mes pages ont été indexées alors que le contenu provenait d’un flux marchand présent sur des dizaines de sites. J’avais changé deux choses : j’ai rajouté un Pandaranol précédant le titre de l’article et j’ai utilisé un outil de densité de mot clé pour repérer celui qui sera remplacé par Pandaranol. Les articles faisaient entre 300 et 1200 caractères et pourtant n’ont jamais été filtrés.

Bref, je ne crois pas que, lors de l’indexation, Google face tourner un monstre de calcul pour vérifier si le contenu est déjà présent dans sa base.

Alors pourquoi cette peur ? Pourquoi je suis quand même contre copier coller un contenu entier ou pourquoi je me bats contre le DUST (different url same text) ?
Tout simplement car Google fait forcément un post-traitement des données une fois qu’elles sont dans son index. Ce calcul doit regrouper un contrôle du contenu dupliqué ainsi qu’une surveillance de l’éloignement sémantique. Une fois que l’algorithme a bien travaillé il va pouvoir appliquer ses filtres sur certaines pages et, s’il y en a trop, pénaliser le site entier. Le gros tremblement dans les SERPs du 15-16 juin semblerait correspondre à une grosse mise à jour qui a fait très mal à certains. Par contre soyons sérieux, si le contenu dupliqué se faisait sur une seule phrase tous les sites contenant « Bienvenue sur mon site » serait pénalisé depuis longtemps…

Moralité : pour un concours, il est possible de jouer avec le feu en créant des pages au contenu dupliqué à 80-90% à condition de les entourer d’autre contenu issu d’autre sources d’un univers sémantique similaire.

Le texte dupliqué n’est rien à coté des images dupliqués :

Une des techniques que j’ai pu expérimenter est la technique du hotlinking sur image. Reprenons mon histoire de flux, je ne me suis pas embêté à enregistrer toutes les images pour les associer à mon contenu, j’utilisais directement les images présentes dans ce flux pour les afficher. En clair, un autre serveur me fournissait les images à chaque chargement de pages. Voici donc ce qu’une recherche d’image avec la commande site:monsite donnait sur Google


Pour info, les 8 premières sont les miennes, les autres sont celles issues des flux.

Normalement jusque là vous ne voyez rien d’extravagant, si ce n’est que Google n’est même pas capable de dissocier une image hotlinkée d’une image hébergée. Ceci est tout à fait normal, de nombreux gros sites utilisent souvent un sous-domaine (ou domaine) différent pour gérer les images.

Voici maintenant ce qui m’a inquiété : comme dit précédemment, mes produits ont tous été précédés d’un Pandaranol dans le title. Je ressortais en premier sur une recherche d’image : Pandaranol + nom du produit.

Même si je ne suis pas black hat, voici une technique qui est sûrement utilisé depuis des lustres : vous prenez un flux d’images, vous créez un blog (ou vous en utilisez un avec de l’autorité) et vous vous placez sur les fautes d’orthographe des noms de produits. Vous rajoutez votre lien d’affiliation et là vous avez un revenu confortable qui tombe sans effort dans votre poche. Niveau légal je ne sais pas ce que cela vaut car après tout, il s’agit de l’utilisation de données publiques utilisables après avoir passé un deal avec les régies d’affiliation.

Bref, je gratte juste la face visible de l’iceberg mais vous aurez compris que vos images sont loin d’être protégées. Plusieurs extensions WordPress protègent d’ailleurs du hotlinking en remplaçant votre image par une image de votre choix.

Il n’existe aucun moyen pour transférer de l’autorité d’un texte

Une autorité, ça doit se construire avec le temps. Et c’est bien dommage.

Lors de ce concours, et pour des besoins professionnels, j’ai longtemps cherché une formule magique qui me permettait de dire : « Je prend le texte d’un site A sur mon site B car je le trouve pertinent, ce faisant j’encourage Google à dire que le site A est un site de qualité », bref une citation avec source et cie.

La balise blockquote me paraissait la plus utile pour ce genre de promotion. Pour ceux qui souhaitent faire le test, sachez que, de mon coté, il n’a pas été concluant. Le texte de mon site sans autorité a été dépassé par mon site avec autorité que j’utilise une balise blockquote ou non, lien ou non.

La seule façon aujourd’hui de citer un texte sans passer pour un voleur de contenu et subir ou donner une pénalité de contenu dupliqué est de ne pas montrer le texte à Google (iframe, ajax, image). J’ai essayé de sonder d’autres solutions sur twitter et hélas aucune solution miracle n’existe.

Conclusion du concours

Pour un concours de référencement, il vaut mieux se tenir prêt bien avant le concours :

  • Préparer une page à forte autorité pour faire une 301 de celle ci vers le site du concours
  • Préparer son contenu (en auto, semi-auto ou même manuellement)
  • Créer différents sites satellites sur des plateformes de blog histoire qu’ils prennent un peu d’autorité et utiliser le contenu préparé sur celles-ci une fois le concours lancé (en insérant le mot choisi)
  • Créer plusieurs plans de secours et un pot de miel pour que les adeptes de la NSEO se cassent les dents dessus
  • Préparer des techniques qui feront le buzz, réelles ou non (scripts à télécharger, vidéo)
  • Selon le niveau, coder quelques extensions bien pratiques sur wordpress qui feront un lien vers vous à la fin du concours :p
  • Repérer de bons plans BL peu exploités et bien se demander s’il est utile de les garder pour le concours
  • Se faire plein de copains pour avoir beaucoup de soutien :p
  • Avoir un site à forte autorité qui pourra transférer un peu de jus (une plateforme de communiqué de presse ou un annuaire pourra faire l’affaire)

Bien sur, cette liste n’est pas exhaustive mais la personne qui a déjà ça aura une bonne longueur d’avance sur les autres…

 

J’espère que vous avez aimé cette liste d’articles, je n’ai pas abordé la thématique éternelle des liens, je pense que vous avez compris que c’est important depuis le temps 😉 Si vous avez des questions, il ne vous reste plus qu’à scroller un peu…

Accès rapide aux précédents articles :

19 Comments

  1. Très bon résumé.
    J’ai fait quelques tests avec facebook pour de l’indexation ca marche bien également à condition d’avoir une page relativement populaire.

  2. Excellente analyse très détaillés. Certains points abordés pourraient même faire l’objet d’articles. Il serait intéressant de faire une étude poussé sur le duplicate content pour savoir vraiment jusqu’où on peut aller. Ton retour donne quand même pas mal d’informations 🙂

  3. Donc en résumé, il faut préparer à l’avance un pique-nique avec du miel et plein d’amis pour réussir un concours SEO 😉

    Plus sérieusement, tes 3 billets constituent une belle analyse de ce concours Pandaranol que j’ai suivi de très loin.

  4. Merci pour ce bilan super intéressant (les trois parties sont tout de même très liées – pas comme vous l’aviez annoncé en intro 1/3)

  5. Merci d’avoir partagé tes conclusions. Il n’empêche qu’au final, un webmaster possédant un puissant réseau de sites web sera toujours avantagé par rapport aux petits nouveaux. En conséquence, lors d’un concours SEO, ce serait bien de limiter ce genre de pratique, par souci d’équité…

  6. C’etait une tres tres bonne série d’articles . avec de tres bons conseils tirés du concours.. chapeau!

    Aux niveau des annuaires je comprends ta frustration et j’en parle ici http://lemusclereferencement.com/2010/12/04/le-casse-tete-de-lannuairiste/

  7. Belle trilogy ! Ça a du te prendre pas mal de temps de rédiger cette série d’article !!
    Je crois que la conclusion résume bien le tout. Le réseau c’est primordial et pas que dans le SEO 😉

  8. Bonjour JB et sympathique continuation de ton bilan personnel.
    Le contenu dupliqué est une vraie corvée à éliminer, j’ai inscrit notre site web sur Infini Search et reprendre une phrase d’introduction du site web pour la page annuaire m’a juste permis d’être refusé par le moteur… Duplicate content !
    Le hotlinking a de l’avenir devant lui, va falloir que je trouve une extension Drupal pour la peine !

  9. Sur le contenu dupliqué, tant que cela passe c’est bien. Mais le jour où ça dégomme, c’est trop tard.
    Moi je suis cette notion 0 phrase dupliqué sur mes portails SEO. Pourquoi ? Car j’en aurai sûrement au fil du temps (les référenceurs qui soumettent en même temps sur 10 annuaires, les référenceurs qui réutilise une partie ou tout le texte 1 mois après, vol du contenu, …). Autant éviter ceux que l’on peut dès le départ.

    Concernant tes conclusions, je suis en phase avec toutes.

  10. Merci supers articles. Moi aussi j’ai suivi dans l’ombre ce concours, super intéressant et beaucoup de rebondissements surprenants vu de l’extérieur.

    Sur le DC, c’est vrai qu’on a tendance a être trop parano et par la même perdre pas mal de temps si on veut faire du SEO vraiment clean mais on ne sait jamais ce que Monsieur Google nous réserve à l’avance et il semblerait bien qu’il se soit fixer un objectif de réduction drastique de DC.

  11. Concernant ta remarque je peux te dire par expérience que le filtre de détection de duplicate passe entre 3 semaines et 1 mois et demi après publication. J’avais un site entièrement en duplicate qui s’est fait jarter après ce laps de temps et j’ai remarqué plusieurs fois ce comportement.

  12. Il faut reconnaitre que la palme d’or de la roublardise vient sans contestation à backlinker et son plugin WP…

    Je trouve aussi fourbe que brillant 🙂

  13. Bonjour et merci pour cette série d’articles très instructifs, comme l’a été le concours 😉

    Concernant le transfert d’autorité d’un texte, as tu essayé d’utiliser la balise rel= »canonical » qui du coup me paraitrait appropriée ?

  14. @Loic : non car le but est d’avoir la page indexée aussi car je fais juste une citation le reste du texte est original 😉

  15. Merci pour cet article très intéressant et fort bien construit.
    L’idée de scraper le contenu de Twitter pour l’ajouter sur un WP m’intéresse.
    cela fait un petit moment que je travaille dessus.
    Tu dis utiliser la technique, peut on savoir quel plugin utilises tu ou quel code…

  16. Sympa la série d’article haut de gamme. Quelques minutes de lecture comme celle-ci, après les vacances, ça remet dans le bain.
    Merci pour tes réflexions et tout ce que cela peut faire germer dans nos cerveaux …
    @mitiés
    Wilfried

  17. @Loic: je n’ai pas scraper twitter sur un wp mais j’ai fait le contraire avec twitterfeed. Par contre je pense que tu peux facilement le faire avec imacros ou encore un rss de twitter que tu importes sur wp. Pour supprimer le bruit Yahoo pipes peut t’aider

  18. Ton analyse sur les contenus dupliqués est très intéressante. C’est vrai que ce sont des histoires qui restent assez flou.

  19. Bon retour qui fourni pas mal d’informations intéressantes, notamment dans la partie sur google images… Et oui je pense qu’un concours se prépare et je pense que la stratégie et la préparation avant le concours compte pour beaucoup dans le résultat final !