网站 Robots.txt 文件编写指南 - 告诉搜索引擎哪些页面可以爬取 - 常规

Robots.txt 是一种位于网站根目录下的文本文件，用于告诉搜索引擎哪些页面可以被爬取，哪些页面不可以被爬取。

以下是 Robots.txt 的编写规则：

指定 User-agent：User-agent 指的是爬虫的名称，可以指定多个 User-agent，每个 User-agent 占一行。
指定 Allow 和 Disallow：Allow 表示允许访问的页面，Disallow 表示禁止访问的页面，每个 Allow 或 Disallow 占一行。
指定 Sitemap：Sitemap 指的是站点地图，告诉搜索引擎站点的结构，可以指定多个 Sitemap，每个 Sitemap 占一行。

下面是一个 Robots.txt 的示例：

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /category/
Disallow: /wp-*
Disallow: */feed/
Disallow: */rss/
Disallow: */embed/
Disallow: */trackback/
Disallow: */comments/
Allow: /wp-content/uploads/
Sitemap: http://www.example.com/sitemap.xml

上述 Robots.txt 指定了所有爬虫均禁止访问 '/admin/'、'/cgi-bin/'、'/wp-admin/'、'/wp-includes/'、'/wp-content/plugins/'、'/wp-content/themes/'、'/trackback/'、'/comments/'、'/category/'、'/wp-/'、'/feed/'、'/rss/'、'/embed/'、'/trackback/'、'/comments/' 等页面，但允许访问 '/wp-content/uploads/' 页面，并指定了站点地图的 URL。