Outils pour utilisateurs

Outils du site


web:robots_txt

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
web:robots_txt [2015/06/11 22:31] – créée gdureuilweb:robots_txt [2020/07/24 22:03] (Version actuelle) – modification externe 127.0.0.1
Ligne 1: Ligne 1:
 ====== Robots.txt ====== ====== Robots.txt ======
  
-Fichier servant de directive aux robots d'indexation.+===== Information ===== 
 + 
 +Fichier servant de directive aux robots d'indexation. Un robot n'a aucune obligation de respecter ce fichier. 
 + 
 +===== Exemples =====
  
 Ne rien référencer, pour tout les robots. Ne rien référencer, pour tout les robots.
  
-  User-agent: * +<sxh text; Title: robots.txt> 
-  Disallow: /+User-agent: * 
 +Disallow: / 
 +</sxh>
  
 Ne pas référencer un répertoire ou page, juste pour GoogleBot. Ne pas référencer un répertoire ou page, juste pour GoogleBot.
  
-  User-agent: Googlebot +<sxh text; Title: robots.txt> 
-  Disallow: /repertoire-a/ +User-agent: Googlebot 
-  Disallow: /page-b.html+Disallow: /repertoire-a/ 
 +Disallow: /page-b.html 
 +</sxh> 
 + 
 +<WRAP center important 100%> 
 +Attention ! Ce fichier est public, n'importe qui peut voir son contenu. Attention à ce que vous mettez (dossiers sensibles par exemple). 
 +</WRAP> 
 + 
 +===== Liste de bots agressifs ===== 
 + 
 +Voici une liste de bots agressifs que l'on peut définir : 
 + 
 +<sxh text; Title: robots.txt> 
 +# http://www.opensiteexplorer.org/dotbot 
 +User-agent: dotbot 
 +Disallow: / 
 + 
 +# https://ahrefs.com/robot/ 
 +User-agent: AhrefsBot 
 +Disallow: / 
 + 
 +# These fools don't even respect robots.txt 
 +User-agent: QuerySeekerSpider 
 +Disallow: / 
 + 
 +# http://www.picsearch.com/bot.html 
 +User-agent: psbot 
 +Disallow: / 
 + 
 +# http://webmeup-crawler.com/ 
 +User-agent: BLEXBot 
 +Disallow: / 
 + 
 +# http://sentibot.eu/ 
 +User-agent: sentibot 
 +Disallow: / 
 + 
 +# http://openlinkprofiler.org/bot 
 +User-agent: spbot 
 +Disallow: / 
 + 
 +# http://www.crazywebcrawler.com/ 
 +User-agent: CrazyWebCrawler-Spider 
 +Disallow: / 
 + 
 +# https://ranksonic.com/ranksonic_bot.html 
 +User-agent: RankSonicBot 
 +Disallow: /
  
-Attention ! Ce fichier est public, n'importe qui peut voir son contenuAttention à ce que vous mettez (dossiers sensibles).+# http://www.seokicks.de/robot.html 
 +User-agent: SEOkicks-Robot 
 +Disallow: / 
 +</sxh>
web/robots_txt.1434061904.txt.gz · Dernière modification : 2020/07/24 22:03 (modification externe)

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki