À quoi servent les fichiers robots.txt ?

Les fichiers Robots.txt aident les robots des moteurs de recherche à explorer et à indexer votre site web plus efficacement : voici comment les utiliser et pourquoi.

Les fichiers Robots.txt sont des fichiers texte qui, lorsqu’ils sont placés sur un site web, indiquent aux robots des moteurs de recherche les pages du site qui peuvent être explorées et celles qui ne le peuvent pas. Pourquoi les utiliser ? Parce que l’exploration de l’ensemble du site par les robots des moteurs de recherche dans le but d’indexer le site lui-même peut être une perte de temps et induire en erreur. Il est préférable de cibler des pages spécifiques. Rappelons que le fichier robots.txt ne constitue pas un blocage ou une obligation : c’est une indication, pour ceux qui veulent s’y conformer. Normalement, tous les moteurs de recherche le font, alors que, par exemple, les spams les ignorent systématiquement. Comprenons donc mieux à quoi servent ces fichiers textes et comment créer un fichier robots.txt.

Fichier robots.txt : ce que c’est

Un fichier robots.txt est un fichier texte utilisé pour fournir des instructions aux moteurs de recherche et autres robots web sur la manière de naviguer et d’indexer les pages d’un site web. Revenons un peu en arrière : les moteurs de recherche, par l’intermédiaire de leurs crawlers (ou spiders, ou bots), explorent d’abord et indexent ensuite le contenu des pages web sur l’internet. Ces robots naviguent sur le web, visitant les pages web et suivant les liens qu’elles contiennent pour découvrir de nouvelles pages à examiner.

Le processus d’exploration est essentiel pour collecter des informations à partir de milliers de sites web de manière efficace et systématique. Les crawlers analysent le contenu des pages web, extraient des informations telles que du texte, des liens, des images et des métadonnées, et les envoient aux algorithmes des moteurs de recherche pour qu’ils les indexent : les informations recueillies sont organisées et stockées dans les crawlers de manière à pouvoir être rapidement récupérées lorsqu’un utilisateur effectue une recherche, afin qu’il puisse trouver des informations pertinentes.

Revenons maintenant à notre fichier robots.txt. Ce fichier est placé à la racine du site web et fournit un ensemble de directives permettant de spécifier les parties du site qui doivent être exclues de l’indexation et celles qui peuvent être indexées à la place. Les directives les plus courantes dans un fichier robots.txt sont « Disallow », qui empêche les moteurs de recherche d’indexer certaines pages ou certains répertoires, et « Allow », qui autorise l’indexation de ressources spécifiques. Le fichier robots.txt peut également être utilisé pour spécifier l’emplacement du sitemap du site web, qui fournit une carte des URL au sein du site, facilitant ainsi l’indexation.

À quoi sert le fichier robots.txt ?

Le fichier robots.txt sert à améliorer les performances des sites web en indiquant aux robots de Google et d’autres moteurs de recherche les pages sur lesquelles ils peuvent se concentrer et celles qu’ils peuvent ignorer à des fins d’indexation.

Il est important de se rappeler que ce budget n’est pas illimité et que si nous n’indiquons pas aux robots d’exploration les pages qu’ils peuvent ignorer, ils en sauteront certaines au hasard, alors qu’elles peuvent être importantes pour nous. Quelles sont les pages qui peuvent généralement être ignorées ? Cela dépend du site web et de vos besoins, mais il est certain que toutes les pages de connexion (telles que /wp-admin/ sur WordPress, qui est en fait automatiquement désactivée), les pages dupliquées ou les pages de résultats de recherche interne, les ressources privées telles que les images, les vidéos ou les documents.

Où se trouve le fichier robots.txt ?

Le fichier robots.txt se trouve dans le répertoire racine du site, généralement accessible via l’url de base du site. Par exemple, si le site web a l’url https://www.example.com, le fichier robots.txt sera accessible à l’adresse https://www.example.com/robots.txt. Étant donné qu’il doit fournir des instructions aux moteurs de recherche et autres robots, il est important qu’il soit facilement accessible et placé dans le répertoire racine du site afin que les robots d’indexation puissent le trouver rapidement.

Que contient un fichier robots.txt ?

La syntaxe des fichiers robots.txt est simple. Vous devez assigner des règles aux robots en indiquant leur user-agent (le nom du robot du moteur de recherche), suivi d’une directive (la règle). Si vous souhaitez vous adresser à tous les crawlers sans distinction, vous pouvez utiliser l’astérisque (voici une liste des principaux crawlers). Dans ce cas, la règle suivante sera valable pour tous. De cette manière :

User-agent : *

Disallow : /

Autoriser : /

La directive disallow « empêche » (encore une fois, en théorie seulement) les robots d’exploration d’explorer et d’indexer une page donnée. La directive allow permet cela.

Outre ces trois éléments principaux (user-agent/allow/disallow), il existe d’autres directives. Sitemap fournit une liste structurée de toutes les URL importantes du site, facilitant ainsi le processus d’indexation pour les moteurs de recherche. Crawl-delay spécifie un délai, en secondes, entre les requêtes successives des robots d’indexation. Il peut être utilisé pour limiter la fréquence à laquelle les robots visitent le site, afin de réduire la charge sur le serveur.

Comment créer un fichier robots.txt ?

Vous pouvez créer vous-même un fichier robots, en insérant les éléments que nous avons indiqués, ou utiliser un générateur de robots.txt très pratique. Pour commencer dans tous les cas, ouvrez un document .txt (mieux vaut ne pas utiliser Word) et écrivez-y les directives. Chaque directive doit tenir sur une seule ligne. Si vous voulez vous adresser à différents crawlers, vous devez créer plusieurs « blocs » de directives, séparés par un espace. Une fois la rédaction terminée, le fichier doit être enregistré en tant que robots.txt et téléchargé sur votre site. Le processus de téléchargement varie en fonction du type et de la structure du site web.

Comment savoir si mon site est indexé ?

Pour savoir si votre site est indexé, vous pouvez commencer par une recherche directe : vous pouvez rechercher votre site en utilisant le nom de domaine ou l’url principale dans des moteurs de recherche tels que Google, Bing ou Yahoo. Vous pouvez également utiliser la requête « site : » suivie de votre nom de domaine ou de votre adresse URL principale dans les moteurs de recherche. Par exemple, « site:exemple.com ». Vous obtiendrez ainsi une liste de toutes les pages de votre site qui ont été indexées par ce moteur de recherche.

Il existe également des outils gratuits tels que Google Search Console, qui fournit des informations détaillées sur l’indexation des sites web sur Google, y compris les problèmes susceptibles d’affecter l’indexation. Les outils d’analyse du trafic tels que Google Analytics vous permettent également de voir si votre site reçoit du trafic en provenance des moteurs de recherche.