网站 Robots.txt 文件编写指南 - 告诉搜索引擎哪些页面可以爬取
Robots.txt 是一种位于网站根目录下的文本文件,用于告诉搜索引擎哪些页面可以被爬取,哪些页面不可以被爬取。
以下是 Robots.txt 的编写规则:
-
指定 User-agent:User-agent 指的是爬虫的名称,可以指定多个 User-agent,每个 User-agent 占一行。
-
指定 Allow 和 Disallow:Allow 表示允许访问的页面,Disallow 表示禁止访问的页面,每个 Allow 或 Disallow 占一行。
-
指定 Sitemap:Sitemap 指的是站点地图,告诉搜索引擎站点的结构,可以指定多个 Sitemap,每个 Sitemap 占一行。
下面是一个 Robots.txt 的示例:
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /category/
Disallow: /wp-*
Disallow: */feed/
Disallow: */rss/
Disallow: */embed/
Disallow: */trackback/
Disallow: */comments/
Allow: /wp-content/uploads/
Sitemap: http://www.example.com/sitemap.xml
上述 Robots.txt 指定了所有爬虫均禁止访问 '/admin/'、'/cgi-bin/'、'/wp-admin/'、'/wp-includes/'、'/wp-content/plugins/'、'/wp-content/themes/'、'/trackback/'、'/comments/'、'/category/'、'/wp-/'、'/feed/'、'/rss/'、'/embed/'、'/trackback/'、'/comments/' 等页面,但允许访问 '/wp-content/uploads/' 页面,并指定了站点地图的 URL。
原文地址: https://www.cveoy.top/t/topic/lQgk 著作权归作者所有。请勿转载和采集!