Robots.txt 是一个文本文件,用于告诉搜索引擎爬虫哪些页面可以被抓取,哪些页面不能被抓取。下面是一个示例:

User-agent: * Disallow: '/admin/' Disallow: '/cgi-bin/' Disallow: '/tmp/' Disallow: '/private/'

以上代码的意思是:

  • User-agent: * 表示适用于所有搜索引擎爬虫。
  • Disallow: '/admin/' 表示不允许抓取网站的'/admin/'目录下的所有页面。
  • Disallow: '/cgi-bin/' 表示不允许抓取网站的'/cgi-bin/'目录下的所有页面。
  • Disallow: '/tmp/' 表示不允许抓取网站的'/tmp/'目录下的所有页面。
  • Disallow: '/private/' 表示不允许抓取网站的'/private/'目录下的所有页面。

如果你想允许搜索引擎抓取所有页面,可以将 Disallow 改为 Allow。如果你想禁止某个特定的搜索引擎爬虫抓取你的网站,可以将 User-agent 改为该爬虫的名称,并在后面添加 Disallow 规则。例如:

User-agent: Baiduspider Disallow: '/'

以上代码的意思是禁止百度爬虫抓取整个网站。

robots.txt 文件编写指南:控制搜索引擎爬取你的网站

原文地址: https://www.cveoy.top/t/topic/oXpP 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录