Repérer les URLs canonical avec Imacros

Hello les amis.

Je réponds à l’appel de pas mal de référenceurs (euh, deux en fait) qui cherchent à savoir s’il est possible de savoir, dans une liste d’URL définie quelles sont les pages qui comportent un attribut canonical, et évidemment, la destination de cette URL canonical.

Bien entendu, la solution que je vais vous délivrer est appelé « solution du pauvre » car elle se base sur une liste d’URL déjà connu. Il est plus simple d’utiliser Screaming Frog SEO pour obtenir ce résultat et le laisser s’occuper de crawler tous vos liens.

Maintenant que le problème est posé, voyons voir ce qu’il faut faire manuellement :

  1. Prendre une liste d’URL (dans un plan de site ou avec Xenu par exemple)
  2. Créer un tableau à deux colonnes : une comportant les URLs, l’autre disant si oui, ou non, il y a un canonical associée
  3. Ouvrir les pages, faire une recherche et coller le résultat dans le tableau.

Bon pas très sexy comme programme, sachant en plus qu’il faut gérer ça pour 500 URLs (bah oui les radins, à moins de 500 Screaming Frog marche).

Donc on va automatiser tout ça avec une petite macro que voici :

VERSION BUILD=7021019 RECORDER=FX
SET !EXTRACT_TEST_POPUP NO
SET !ERRORIGNORE YES
SET !DATASOURCE plansite.csv
SET !DATASOURCE_COLUMNS 1
SET !TIMEOUT_STEP 1
TAB T=1
SET !DATASOURCE_LINE {{!LOOP}}
URL GOTO={{!COL1}}
ADD !EXTRACT {{!URLCURRENT}}
TAG POS=1 TYPE=LINK ATTR=rel:canonical EXTRACT=HREF
SAVEAS TYPE=EXTRACT FOLDER=* FILE=canonical.csv

Avant de mettre en route cette macro, il vous faudra créer la lite d’URL avec une URL par ligne sur une colonne dans un fichier csv que vous enregistrerez dans le dossier Datasource.

Cette macro est idéale pour les débutants car elle permet d’aborder deux notions d’Imacros : l’automatisation et l’extraction de données. Ligne par ligne ça donne :

  • Version de l’enregistreur (sert à rien)
  • Ne pas mettre de popup à l’extraction (à désactiver pour les tests)
  • Ignorer les erreurs
  • Chemin où aller chercher les URLs
  • Nombre de colonne à traiter dans le fichier csv
  • Ne pas passer plus d’une seconde par erreur (accélère la macro)
  • Appeller le premier onglet actif
  • Prévenir que la ligne correspond au numéro de la boucle
  • Aller à l’url désigné par la ligne précédente
  • Extraire l’URL (facultatif mais va vous faciliter la vie après)
  • Extraire le canonical
  • Sauver dans un fichier canonical.csv

Il ne vous reste plus qu’à lancer la macro en boucle en la répétant autant de fois que vous avez de lignes et de prendre un café.

Vous obtiendrez ensuite un fichier CSV excel avec deux colonnes : l’URL et une canonical s’il y en a. Après traitement et filtre, vous pourrez garder uniquement ce qui vous intéresse !

N’hésitez pas à me faire un retour si besoin.

11 commentaires

  1. Merci pour cette macro 🙂
    J’aime de plus en plus Imacros.
    Je vais tester Screaming Frog SEO que je ne connaissais pas.
    Peut-être une bonne surprise 🙂

  2. Faut vraiment que je me mette à utiliser Imacros : ça a vraiment l’air génial 🙂

    En tout cas merci pour ce partage (j’ai bookmarqué tes articles Imacros -, surtout le dernier tuto vidéo pour quand je m’y mettrai)

  3. Je fais partie des deux SEO à l’origine de la demande, donc je réitère un grand merci pour cette macro.

    Je viens donc à l’instant de l’utiliser et elle marche parfaitement. Je peux donc désormais l’associer avec les résultats de Xenu Link pour détecter le réel contenu dupliqué, et celui qui est corrigé par les balises Canonical (pour les sites e-commerce notamment où un même produit est dans plusieurs catégories).

    Pour ceux qui débute avec Imacro (comme moi), le dossier Data source se trouve dans le répertoire « Imacro » présent dans « Mes Documents ».

    Encore merci à toi pour ton aide !

  4. Pfffff Encore un truc sur lequel il faut que je me penche … et j’ai pas le temps meme si je sais qu’a la longue ce genre de petits trucs vont m’en faire gagner beaucoup … bon allez je vais m’y mettre … merci en tout cas

  5. tu n’as pas fais l’article pour seulement 2 personne mais trois maintenant 🙂
    Merci pour cette astuce, en plus pour les débutants sa tombe bien.

  6. Mais c’est complètement indispensable ça !

    Merci JambonBuzz de m’avoir sauvé la journée ! Je cherchais justement un moyen de repérer facilement quelle page d’un site n’avait pas de canonical url (j’ai essayé la solution du pauvre sans macro et ce n’est pas drôle du tout)

  7. Merci pour le tips, je vais m´en servir desuite pour plusieurs de mes sites je pense ! coool !

Les commentaires sont fermés.