robots.txt放于网站根目录下面,用来控制百度(baidu)谷歌(Google)的搜索引擎蜘蛛不抓取你想要哪些内容不被抓取。
限制搜索引擎蜘蛛(robots.txt)参数实例详解:
Disallow 行列出的是您要拦截的网页。 您可以列出某一具体网址或网址模式。 条目应以正斜杠 (/) 开头。
Disallow: /
Disallow: /junk-directory/
Disallow: /private_file.html
User-agent: Googlebot-Image Disallow: /images/狗.jpg
User-agent: Googlebot-Image Disallow: /
User-agent: Googlebot Disallow: /*.gif$
User-agent: * Disallow: /folder1/ User-agent: Mediapartners-Google Allow: /folder1/
请注意,指令区分大小写。 例如, Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp,但会允许 http://www.example.com/Junk_file.asp。
模式匹配
Googlebot(但不是所有搜索引擎)遵循某些模式匹配。
User-agent: Googlebot Disallow: /private*/
User-agent: Googlebot Disallow: /*?
User-agent: Googlebot Disallow: /*.xls$
您可将此模式匹配与 Allow 指令配合使用。 例如,如果 ? 代表一个会话 ID,您可能希望排除包含 ? 的所有网址,以便确保 Googlebot 不会抓取重复网页。 但是以 ? 结束的网址 可能是您希望包含的网页的版本。 在此情况下,您可以对 robots.txt 文件进行如下设置:
User-agent: * Allow: /*?$ Disallow: /*?
Disallow: / *? 指令将阻止包含 ? 的所有网址 (具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号,而后又是任意字符串的网址)。
Allow: /*?$ 指令将包含以 ? 结束的所有网址 (具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。