Ceci est une ancienne révision du document !

Robots.txt

Procédure

Fichier servant de directive aux robots d'indexation. Un robot n'a aucune obligation de respecter ce fichier.

Ne rien référencer, pour tout les robots.

User-agent: *
Disallow: /

Ne pas référencer un répertoire ou page, juste pour GoogleBot.

User-agent: Googlebot
Disallow: /repertoire-a/
Disallow: /page-b.html

Attention ! Ce fichier est public, n'importe qui peut voir son contenu. Attention à ce que vous mettez (dossiers sensibles par exemple).

Voici une liste de bots agressifs que l'on peut définir :

# http://www.opensiteexplorer.org/dotbot
User-agent: dotbot
Disallow: /

# https://ahrefs.com/robot/
User-agent: AhrefsBot
Disallow: /

# These fools don't even respect robots.txt
User-agent: QuerySeekerSpider
Disallow: /

# http://www.picsearch.com/bot.html
User-agent: psbot
Disallow: /

# http://webmeup-crawler.com/
User-agent: BLEXBot
Disallow: /

# http://sentibot.eu/
User-agent: sentibot
Disallow: /

# http://openlinkprofiler.org/bot
User-agent: spbot
Disallow: /

# http://www.crazywebcrawler.com/
User-agent: CrazyWebCrawler-Spider
Disallow: /

# https://ranksonic.com/ranksonic_bot.html
User-agent: RankSonicBot
Disallow: /

# http://www.seokicks.de/robot.html
User-agent: SEOkicks-Robot
Disallow: /