web:robots_txt
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
web:robots_txt [2016/02/20 23:32] – gdureuil | web:robots_txt [2020/07/24 22:03] (Version actuelle) – modification externe 127.0.0.1 | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Robots.txt ====== | ====== Robots.txt ====== | ||
+ | |||
+ | ===== Information ===== | ||
Fichier servant de directive aux robots d' | Fichier servant de directive aux robots d' | ||
+ | |||
+ | ===== Exemples ===== | ||
Ne rien référencer, | Ne rien référencer, | ||
- | <code> | + | <sxh text; Title: robots.txt> |
User-agent: * | User-agent: * | ||
Disallow: / | Disallow: / | ||
- | </code> | + | </sxh> |
Ne pas référencer un répertoire ou page, juste pour GoogleBot. | Ne pas référencer un répertoire ou page, juste pour GoogleBot. | ||
- | <code> | + | <sxh text; Title: robots.txt> |
User-agent: Googlebot | User-agent: Googlebot | ||
Disallow: / | Disallow: / | ||
Disallow: / | Disallow: / | ||
- | </code> | + | </sxh> |
+ | <WRAP center important 100%> | ||
Attention ! Ce fichier est public, n' | Attention ! Ce fichier est public, n' | ||
+ | </ | ||
+ | |||
+ | ===== Liste de bots agressifs ===== | ||
+ | |||
+ | Voici une liste de bots agressifs que l'on peut définir : | ||
+ | |||
+ | <sxh text; Title: robots.txt> | ||
+ | # http:// | ||
+ | User-agent: dotbot | ||
+ | Disallow: / | ||
+ | |||
+ | # https:// | ||
+ | User-agent: AhrefsBot | ||
+ | Disallow: / | ||
+ | |||
+ | # These fools don't even respect robots.txt | ||
+ | User-agent: QuerySeekerSpider | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: psbot | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: BLEXBot | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: sentibot | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: spbot | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: CrazyWebCrawler-Spider | ||
+ | Disallow: / | ||
+ | |||
+ | # https:// | ||
+ | User-agent: RankSonicBot | ||
+ | Disallow: / | ||
+ | |||
+ | # http:// | ||
+ | User-agent: SEOkicks-Robot | ||
+ | Disallow: / | ||
+ | </ |
web/robots_txt.1456011121.txt.gz · Dernière modification : 2020/07/24 22:03 (modification externe)