robotstxt 怎么写
Robots.txt是一个文本文件,用于告诉搜索引擎爬虫哪些页面可以被抓取,哪些页面不能被抓取。下面是一个示例:
User-agent: * Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/
以上代码的意思是:
- User-agent: * 表示适用于所有搜索引擎爬虫。
- Disallow: /admin/ 表示不允许抓取网站的/admin/目录下的所有页面。
- Disallow: /cgi-bin/ 表示不允许抓取网站的/cgi-bin/目录下的所有页面。
- Disallow: /tmp/ 表示不允许抓取网站的/tmp/目录下的所有页面。
- Disallow: /private/ 表示不允许抓取网站的/private/目录下的所有页面。
如果你想允许搜索引擎抓取所有页面,可以将Disallow改为Allow。如果你想禁止某个特定的搜索引擎爬虫抓取你的网站,可以将User-agent改为该爬虫的名称,并在后面添加Disallow规则。例如:
User-agent: Baiduspider Disallow: /
以上代码的意思是禁止百度爬虫抓取整个网站
原文地址: https://www.cveoy.top/t/topic/huAK 著作权归作者所有。请勿转载和采集!