Googlebot change de méthode

Posted by on septembre 29, 2011 in Focus | 60 comments

Retour sur une histoire qui risque de changer quelques détails pour la création de backlinks…

stop-href

Cela fait quelques mois que plusieurs webmasters ont remarqués des pages en 404 étranges apparaître dans leur rapport webmaster tools. Des trucs du genre 404 trouvées sur monsite.com/ceciestmonur…

C’est Sandrine (@gdtsb sur twitter) qui me l’a fait remarqué il y a environ un mois suite à l’apparition d’une page 404 sur son rapport Webmaster Tools, elle était persuadée d’avoir juste un lien qui pointait vers cette url et que ce lien n’en était pas un.

Quoi ? Comment un lien peut ne pas être un lien ?

C’est assez simple en fait. Un vrai lien est sous la forme <a href= »…</a>. Pour les plus noobs d’entre vous ça donne un lien bleu bien souligné dans Word (mer6 s1pa pr lé n00bz). Or quand vous virez le a href, le lien n’est plus qu’un texte.
En clair :
https://www.jambonbuzz.com > Lien normal
https://www.jambonbuzz.com > Texte.

G compri jsui pa n00b jsé fr 1 li1 ! Pkoi Tu di sa ?!

Alors sache petitpasnoob que selon des tests très poussés, il s’agirait dorénavant de la même chose.

En effet, la présence d’un lien en texte sous la forme http://www.nomdulien.fr est suivi. (Donc ce que je viens d’écrire sera suivi par Google).

En es-tu bien sur ?

Si vous connaissez Sandrine, vous savez qu’elle est d’un naturel sceptique et qu’elle s’est décarcassée pour avoir l’examen SEOCamp qui n’est pas pour les…(remplir par la catégorie de personne de votre choix qui vous semble faible).
On a donc fait des tests.
Tout d’abord j’en ai fait un sur ce blog qui va être pété dès la lecture de ce message puisque vous allez tous aller vérifier. Je vous laisse vérifier l’indexation de ce beau lien présent dans ce texte bien ancien :

https://www.jambonbuzz.com/focus/cette-semaine-sur-jambonbuzz-2011-02-07

Et oui, mon url dégueulasse est bien indexée !

Mais ce n’est pas tout, pour être sur nous avons mené un test plus pointu.
Après avoir créé une petite page HTML et l’avoir envoyé sur le serveur, j’ai rajouté un lien sur une page qui a un peu d’autorité. Avec l’aide d’un dev, j’ai mis en place un espion qui surveille le crawl des pages par Google. 3 jours après, la page a été crawlé, 4 jours après elle était indexée.
A noter que cette page n’était connu de personne et qu’elle n’a jamais été ouverte dans un navigateur.
D’après certains confrères, ce test ne marche pas si la page n’a pas un minimum d’autorité. Je vous laisse donc regarder chez vous si vous souhaitez faire ce test.

Bon ok, en quoi ça me concerne ?

Un point positif et plusieurs points négatifs :

  • Point Positif : Vous allez pouvoir corriger les fautes dans vos liens, genre un CP écrit à la va vite
  • Point négatif 1 : Google va indexer les pages de sites débile genre celui-ci : www.mazekni.com/recherche/jambonbuzz.html
  • Point négatif 2 : Les spammeurs vont s’en donner à coeur joie dans leurs commentaire
  • Point négatif 3 : Si vous voulez parler de quelqu’un sans le prévenir il va falloir écrire www[point]google[point][extension populaire en france]

Bon il y en a d’autre, je vous laisse chercher…

Conclusion importante

Ce changement de prise en compte des liens ne veut peut être rien dire. Même s’il permet à googlebot d’examiner de nouvelles pages cela ne veut pas dire qu’il passe le jus du lien. A vrai dire je n’ai pas les outils pour vérifier cela. Si quelqu’un veut tester de mettre un Blast sur 2000 liens en texte pour voir si un site remonte, je suis preneur du résultat. N’oublions pas que cela ne permet en aucun cas d’obtenir une ancre optimisé donc ce n’est pas non plus la nouvelle méthode de référencement ultime.

Si vous souhaitez en savoir plus, Renard du Dezert va plus loin dans son dernier post : Si on rankait sans backlinks

60 Comments

  1. Il faut maintenant voir la puissance de ces liens sans href.
    Je suppose qu’ils n’ont que très peu d’autorité / comptent comme du nofollow sinon le spam va s’amplifier de manière exponentielle.

  2. Il faut surtout voir (plus difficile à prouver) si les liens-texte (comment on va appeler ça, encore…) peuvent positionner une page, ou si Google ne s’en sert que comme « source de découverte de contenus ». Dans tous les cas, ton point 2 me semble très bien vu. 😉

  3. Je sais bien que tu as pondu ce post aujourd’hui EXPRÈS pour être dans ma Revue de Web de Septembre…Bon, tu es pardonné car c’est un bien bel article qui le mérite, j’avoue 😉

  4. Et lorsque le lien est en nofollow, ça fait quoi, docteur ? 😉

  5. J’ajouterais par rapport à ta conclusion que le taux de clic sur un lien non clicable est souvent proche de 0 (quelques copier-coller sont possibles), donc si ce n’est ni une ancre optimisée, ni un apport de jus, il ne reste finalement pas grand chose…
    Mais les résultats d’un éventuel test sur le jus m’intéresse aussi, donc j’espère que quelqu’un viendra les poster ci-dessous (je n’ai pas non plus les moyens/compétences pour tester cela par moi-même).

    Et bravo Sandrine pour avoir mis le doigt (ne vous arrêtez surtout pas de lire la phrase ici !!!) dessus 😉

  6. Autre test à réaliser et qui je pense fonctionne : lorsque vous indiquez le nom d’un site tout simplement sans faire de lien du style CompareMandataire.fr, le lien est pris en compte pour le trust et sûrement aussi pour le référencement.

  7. Merci pour l’info et le test.

    L’adresse du site mazekni me rappelle un sujet de discussion sur les forums Webmasters de Google. Etait-ce pour ce blog?

  8. Ca rejoint un peu le comportement de plus en plus de CMS (WordPress notamment) qui transforment les liens textes en vrais liens.

  9. Wtf, info hyper intéressant, amha une des plus interessante des dernières semaines. La question maintenant qu’on sait que le url en mode texte sont suivies, c’est est-ce que ça transmets du jus?

  10. j’ai eu le même soucis sur mon site !!

  11. Merci pour le retour 😀

    Comme ça, pour monter un linking qui ait l’air « naturel », non seulement il faudra y inclure des liens en nofollow, mais encore des liens qui n’en sont pas, j’arrive pas à deviner si ça va nous faire monter ou baisser en compétence 😀

  12. Je m’étais aussi posé la question suite à l’indexation d’un site sans BL…

    Malheureusement, sa va laisser place au spam…

    Sa remet aussi en avant les mots clés dans les NDD.

    Wait & See

  13. Et bien une info très interessante, j’ai hâte de voir quelques tests la-dessus et notamment sur le poids de ses liens.
    A suivre en tout cas et à réfléchir 😉

  14. BIEN VU les Aveugles!

    Plus sérieusement … je pige maintenant pourquoi certains des sites en developpement de not boite ont été indexé. Pas impossible que ce soit a cause de cela.

    Par contre il faudra faire des tests en plus a l’avenir pour savoir si ces liens / qui n’en sont pas sont pris en compte dans la popularité / ou pas

  15. Ce n’est pas hyper nouveau …
    Google suit même les URLs qu’il trouve dans le JavaScript implémenté dans le code source.
    Il se dit même qu’il suit les URLs présents dans le Flash, en tout cas il arrive à décompiler les Flash.

    Par contre, les liens cryptés en JavaScript (quelque soit le cryptage) sont pour le moment pas suivis (test en cours)

  16. Bon joue le sandwich 😉
    J’ai un magnifique exemple qui va encore plus loin que ton article mais je le reserve pour un prochain billet. Je ne sais pas encore si je vais le publier, mais tu m’as fortement donne envie de le faire !!! La suite au prochain episode ^^

  17. Ben il ne reste plus qu’à avoir les navigateurs qui font pareil en passant en lien ce qui n’en est pas (les lecteurs de mail le font bien eux, sur les url ?) et on sera servi…
    … dans IE72 et FF524 peut-être ? xD

  18. Je reviens sur le commentaire de Laurent et j’extrapole:
    Si on considère que Google cherche à coller au plus près du comportement utilisateur
    Et si on considère qu’un internautes sur 2 ne sait pas faire un lien,
    mais lorsqu’il fait l’effort de proposer un lien, il est directement en relation avec le contenu de la page.
    Alors on peut considérer que la prise en compte de ce genre de liens n’a rien d’étonnant et limite qu’ils auraient une valeur non négligeable
    En effet si je parle de carottes et qu’un internaute me propose d’aller voir le site de son jardinier, alors ce lien est bien de bonne qualité et contrairement aux nôtres avec des ancres optimisées à tout va.
    Dans ce cas, le rapprochement sémantique des 2 sites prendra lui aussi de l’importance

    Maintenant si les spammeurs de tous poils se jettent là dessus sa valeur sera décroissante rapidement

    J’en profite pour remercier Vincent pour ce test réalisé ensemble.

  19. Je met mon billet que ça envoi pas de jus et que c’est uniquement utile a Google pour découvrir du contenu.

  20. A vrai dire, ça fait des lustres que c’est déjà le cas.

    Google a toujours eu tendance à fouiller et tester tout ce qui ressemble à une URL dans les js, les css, les formulaires, …

    On s’en rend compte en consultant les logs, on s’aperçoit que Google crawle plein d’URLs qui n’ont pas lieu d’être.

    Ces URLs sont pour Google une porte potentielle vers le web invisible.

  21. La conclusion paraît bien hâtive. Personne n’a donc tweeté ce lien ? affiché sur un profil d’un réseau social quelconque ? Aucun outil externe — dont les agrégateurs de contenus de spammeurs — ne l’a extrait pour le faire apparaître dans Google ? Personne n’a visité ce lien avec un navigateur ou une barre de navigation renvoyant les informations de navigation à Google ? Personne n’a envoyé ce lien dans un email, texte ou HTML ?

    Ceci dit, peu importe la méthode, après tout : le lien est découvert par Google.

    Et après tout, pourquoi pas. Après tout, s’il ne transmet pas de jus, le nofollow permet depuis déjà des années de découvrir les liens à Google, et ce dernier interprète aussi les liens figurant dans les JavaScript, au point de recommander aux régies publicitaires l’usage de nofollow jusque dans les affichages JavaScript des publicités, afin de ne pas se voir pénalisé pour vente de liens…

    Peut-être que cela permettra, enfin, de voir certains sites abordés dans la presse en ligne, mais rarement liés, de se voir attribuer le poids qu’ils « méritent » ? Oh, mais de là à parler de transmettre du jus, on en est loin. Difficile en effet de spéculer sur une supposition…

  22. GG est complètement fou, cela va à l’encontre de sa pseudo lutte contre le SPAM, et cela signe l’arrêt de mort des liens « nofollow »… sauf s’il considère ce lien en mode texte comme nofollow… mais comme cela sera toujours flou le spam commentaire va faire un bond de 1.00000000 % .

    Sinon l’explication est claire nette et précise thx,

  23. C’est une sacrée info !!! J’aime surtout la conclusion n°2 😉
    A voir si le raisonnement est valable dans le temps.
    Matt

  24. Tiens c’est marrant, je pensais que ça se savait déjà ça^^
    @renardudezert j’attends avec impatience de savoir de quoi tu parles car moi-même de mon coté j’ai eu des adresses indexées qui n’aurait pas due l’être; et ça va au delà d’adresses sans balise.

    @jambonbuzz Wwaouw j’avais pas fais gaffe à ton footer… Violent ce rouge 🙂

  25. Lorsque vous incluez les erreurs possibles dans les sites comme les fatal error, logs et tous les trucs qui peut se produire sur un site, vous verrez que le google bot fouine vraiment partout! j’ai vu même un article qui annonce que les hackers cherche leur victime potentiel à partir de ces résultats.

  26. @Tous : Merci pour vos commentaires et vos retweets. Je ne sais pas si j’ai délivré un secret de polichinelle ou une véritable trouvaille, quoiqu’il en soit tout le monde s’en doutait mais personne n’était sur.

    @Percub : En effet, je pense qu’ils ont le même poids qu’un tweet, juste un signal pour indexer une page.

    @Didier : oui, va falloir trouver un nom ^^

    @SEOFactoryGirl : sans le vouloir tu m’as rappellé qu’il fallait que je publie ça avant la fin du mois ^^

    @Vince : euh…bah la le lien n’est ni en do ni en nofollow puisque cela est lié à un href. Toutefois un lien nofollow est suivi par Google mais le jus n’est soit disant pas transmis

    @David : Bonne précision ! Ca reste quand même un moyen de faire indexer une page. J’ai d’autres idées mais je ne vais pas m’étendre pour éviter les bourrins…

    @Damien : En effet je n’ai pas fait le test sans http ni rien. Bon ton exemple je l’ai laissé mais je doute que tu vois quelque chose ^^

    @Guizz : Non pas pour ce blog

    @Dije : Oui, mais pas le même coût niveau traitement de données ^^

    @Sylvain : Merci

    @Laurent : Bof, ça change pas grand chose pour moi…

    @Max : Pas sur pour les mots clés dans le ndd, je ne pense pas que cela soit considéré comme une ancre

    @RDD : Là t’en as trop dit ou pas assez. Si tu veux m’en dire plus en privé je suis preneur 🙂

    @GDTSB : Merci à toi aussi de m’avoir forcé à être plus drastique sur mon test

    @Watussi : Je me doute que ça fait longtemps, mais je capte pas pourquoi personne n’en a parlé…

    @Martin : Alors là Martin, tu n’as pas lu l’article sur le process. Saches que Sandrine m’a drivé et m’a interdit de mettre l’url dans un de mes navigateurs ou de la twitter. Sache que j’ai eu une veille sur ce mot, qu’elle a été déposé dans le FTP et qu’un traceur de bot a été installé sur les logs. Elle n’a jamais été recherché via info: ou site: ou inurl:. Pour l’exemple que je donne, c’est caduque, pour l’autre test que j’ai réalisé, c’est 100% fiable, je n’ai jamais été aussi parano. Après si tu dis que Google espionne ma conversation avec mon collègue ou est capable de voir mon mail sur un serveur perso…faut ptete pas déconner. Ah et pas d’analytics non plus, le code était html body p.
    Tout à fait d’accord avec toi pour la remarque sur la presse en ligne. Maintenant pour ce qui est du jus, je ne vois qu’une façon de voir ça : un blast.

    @Labisse : Entre ce que Google dit et ce qu’il fait…Merci pour dire que mon explication est nette, certains disent que j’étais drogué quand j’écrivais ce texte :p

    Voila, je n’ai pas souhaité être trop redondant dans mon commentaire. Encore merci, prenez du recul, faites des tests chez vous et voyez si ça fonctionne aussi 😉

  27. Intéressant. Je vais tester avec ma méthode pour confirmer/infirmer 🙂

  28. C’est clair que niveau ancre de lien c’est pas folichon
    Joli teasing de renartdudesert ^^

  29. Je me demande si ça marche pour faire du lien externe, si c’est le cas ça devient hyper facile de faire du NSEO, du style site.fr/pillulebleue non ?

  30. C’est à croire que l’on fonctionne en télépathie Vincent et moi (c’est la 2ème fois).
    J’ai le même test en cours depuis 15 jours environ.
    Je vous dirais ce qu’il en est de mon coté.

    En fait, j’ai pu constaté les faits au feeling depuis longtemps, mais i y avait toujours des possibilités que les pages aient été vues avec une toolbar ou un truc du genre. Cette fois, j’ai bétonner le protocole à mort.
    On verra …

  31. Ce n’est pas une révolution, Google suit toujours les liens qu’ils croisent, qu’ils soient en nofollow ou pas, bloqués par le robots.txt ou pas et parfois même les cherches (remontent des dossiers).
    Par contre il y a un monde entre crawl, indexation et bon positionnement. 😉

    ps : Martin est un troll.

  32. Houla, si ça donne du jus c’est la totale !! ça veut dire qu’à chaque qu’on n’a pas souhaiter donner du jus à une page donc pas fait de lien mais uniquement mis l’url sur un forum ou autre, il bénéficierait de ce lien quand même…

    Décidément, il a plus d’un tour ds son sac ce GG 🙂

  33. Analyse sympathique comme d’habitude.
    Intéressant, ce potentiel de lien sans href, je vais tester 😉

  34. J’avais remarqué ces urls 404, je me demandais d’où ca pouvait provenir.

    Merci de la réponse. Très bon article et bonnes explications.

    J’attends les retours de tests des autres personnes sur l’affaire ^^

  35. Intéressant de confirmer cette info, qui finalement ne m’étonne pas plus que ca. D’ailleurs, j’ai déjà eu l’impression que Google avait crawlé des pages juste suite à leur mentions sur des mails (gmail), mais je n’avais pas cherché à creuser cette affaire, je trouvais ca bien trop paranoïaque …

  36. Gros succès en vue pour exemple.com ou domaine.com 🙂

  37. Je peux même affirmer qu’il suit les URLs présents dans des attributs title

  38. @Marco from grain de web : je me posais justement à l’instant la question concernant les mails…

  39. Je suis surpris que vous vous en rendez compte que maintenant, car il y a bien longtemps que GG prend en compte ce type de liens. Maintenant ce qui est vraiment important c’est le poid de ce type de liens.
    Il semblerait même logique qu’une url sans balise soit plus importante, qu’elle soit plus légitime que celle entouré de balise, puisque hormis des web-master qui cherchent des back-link pour leurs sites, la personne qui veut parler d’un site web avec un véritable contenu, donner son avis sur un sujet et l’appuyé sur des références trouvées sur internet, ne va pas forcément ce faire chier a mettre les balises. Et cela va dans le sens de l’évolution de google. Qui en a surement marre de voire N entreprise payé de Spécialiste de SEO, dans le but et d’être en bonne place dans GG mais au final n’intéresse par le neunaute surfer du dimanche

  40. @ Marco @ polch
    Je suis aussi en train de le tester 🙂

  41. Joli test, merci !
    Le résultat ne m’étonne pas même si je n’avais jamais fait de test « formel » sur le sujet.
    Comme outil complémentaire pour favoriser l’indexation de pages, ça a un beau potentiel.
    Je confirme aussi, pour répondre à Marco, l’appétit de Gmail pour les urls présentes dans les mails 😉

  42. Grace a ton post et tous les commentaires et réactions sur d’autres blog je vais avoir des centaines de nouvelles BL et dans 3 mois un PR9 :)))) avec mon nomdulien.fr . GG indexe certainement… après la question c’est sur le jus mais comme avec GG rien n’est clair…. dans le doute spamons a mort maintenant

  43. Attention tout de même car GWT remonte des liens qui ne sont pas valables pour le jus de PR – style nofollow.
    Il peut tout à fait « voir » le lien, mais ne pas l’intégrer dans le calcul du PR.

  44. Quel intérêt pour Google ? OK cela permet d’indexer plus de pages, mais ils doivent récupérer tout un tas d’URL bien pourries…

  45. Sinon est sans rire, je me demande ou va GG dans sa vision du search, il indexe tous ce qui traine, le bon et le moins bon, vraiment on dirait qu’il ne sait plus quoi faire, pour nous faire croire que son algo continu d’évoluer….

  46. Plus de points negatifs que de positifs… On s’en serait passe 🙂

    C’est ce post dont tu parlais? 😉

    Yes 😉

  47. Bien vu Vincent !
    j’avais constaté récemment de mon coté un phénomène un peu similaire sur l’indexation d’url virtuelles utilisées pour le tracking dans Google Analytics. Ces urls (qui n’existent pas comme leur nom l’indique) renvoyaient des tonnes de 404 dans le webmaster tools chargeant inutilement le serveur par la même occasion…. idem pour les formulaires passés en POST.

  48. Tout le monde semble dire que cela était connu. Pour ma part, j’étais comme Jambonbuzz, je ne savais pas que google indexait les url format texte. Pour moi, intérêt limité car sans jus, ni ancre.

  49. Très intéressant comme test, fallait le trouver et y penser ! Merci pour tous ces avancements, c’est vrai que les points négatifs ne sont pas négligeables et pourraient bien donner des idées aux spammeurs à l’avenir… Je trouve quand même que c’est un peu bête de la part de Google d’indexer ce genre de liens…

  50. Intéressant, surtout pour le Seo. Cependant je ne suis pas sûr que Google y apporte une grande importance. En gros je me pose la question, si ce lien n’est pas indexé en nofollow.

  51. Je débarque de renardudesert, longtemps après donc, mais c’est assez incroyable ça comme principe. Je pense par contre que c’est indexé comme du nofollow, en gros, google va voir la page, mais ne donne aucun crédit à celle ci.
    J’avais remarqué, à tord ou à raison, que si tu fais un lien d’une page en nofollow, cette page en nofollow va être indexée plus rapidement.

    En gros :
    La page A.html est indexée. Tu met dessus un lien B.html.
    La page B.html sera indexée bien plus vite par google, sans devoir faire de « passages ».

  52. ca sent le spam c’est incroyable ^^ va falloir mettre a jours askimet et autre plugin afin de détecter dans les commentaires les liens sans href maintenant , youpi :'(

    merci pour l’info j’etais passé a travers.

  53. Donc toutes les pages avec des liens inactifs pour ne pas avoir une page blindée de liens sortants qui aurait pu être mal perçue par Google finalement ça ne sert à rien.

    Effectivement ça risque de spammer sévère.

    Merci pour le test en tous les cas.

  54. Encore un super article !

  55. Effectivement je serais curieux de voir le résultats d’un tel test. Personne ne c’est lancé ?

  56. Bonjour à tous,

    Il y a quelque temps, j’ai cru comprendre que le trustrank était aussi calculé sur l’appellation d’une recherche sur moteur. soit, juste le nom ou nom de domaine, et les pages de site, s’indexent quand même.

  57. Voilà, spameurs de tous horizons.. la porte est ouverte. j’en connais qui vont sauter au plafond!! mais c’est quand même un peut bof.

  58. Est-ce que quelqu’un a finalement pu faire un blast avec et pousser plus loin le test ?

    En tous cas cela ne m’étonne pas de GG…

  59. Merci pour ces tests, je viens de m’acheter un nouveau nom de domaine pour mettre en place pas mal de trucs tordus.
    On va bien voir ce que cela donne, en tout cas google et son algorithme c’est devenu des légendes urbaines.on ne sait plus trop comment il fait. Si seulement des personnes pouvaient nous révêler la vérité….

  60. Wow, quelle découverte !

    Malgré tout, l’intérêt est quand même limité…

    Quand est-il maintenant par rapport au nouvel algorithme Pingouin ?

    Julie.

Trackbacks/Pingbacks

  1. Les nouveaux backlinks - [...] publier ce billet, mais étant donné que @jambonbuzz m’a ouvert la porte avec son billet Googlebot change de méthode,…