robots.txt 文件编写指南:控制搜索引擎爬取你的网站
Robots.txt 是一个文本文件,用于告诉搜索引擎爬虫哪些页面可以被抓取,哪些页面不能被抓取。下面是一个示例:
User-agent: * Disallow: '/admin/' Disallow: '/cgi-bin/' Disallow: '/tmp/' Disallow: '/private/'
以上代码的意思是:
- User-agent: * 表示适用于所有搜索引擎爬虫。
- Disallow: '/admin/' 表示不允许抓取网站的'/admin/'目录下的所有页面。
- Disallow: '/cgi-bin/' 表示不允许抓取网站的'/cgi-bin/'目录下的所有页面。
- Disallow: '/tmp/' 表示不允许抓取网站的'/tmp/'目录下的所有页面。
- Disallow: '/private/' 表示不允许抓取网站的'/private/'目录下的所有页面。
如果你想允许搜索引擎抓取所有页面,可以将 Disallow 改为 Allow。如果你想禁止某个特定的搜索引擎爬虫抓取你的网站,可以将 User-agent 改为该爬虫的名称,并在后面添加 Disallow 规则。例如:
User-agent: Baiduspider Disallow: '/'
以上代码的意思是禁止百度爬虫抓取整个网站。
原文地址: https://www.cveoy.top/t/topic/oXpP 著作权归作者所有。请勿转载和采集!