以下正则表达式可以用于匹配常见的蜘蛛和自动扫描器的 User-Agent:

^(Mozilla/5.0\s|Opera/9.80\s|Googlebot/2.1\s|bingbot/2.0\s|msnbot/1.0\s|Yahoo!\sSlurp\s|Baiduspider\s|YandexBot/3.0\s|Sogou\sweb\sspider/4.0\s|Exabot/3.0\s|Facebot\s|ia_archiver\s|MJ12bot\s|AhrefsBot/7.0\s|SemrushBot/2.0\s|DotBot/2.0\s|BingPreview/1.0\s|Slackbot-LinkExpanding\s|Twitterbot/1.0\s|WhatsApp\s|LinkedInBot/1.0\s|Pinterest\sbot/1.0\s|Discordbot/2.0\s|TelegramBot/1.0\s|Applebot/0.1\s|Embedly/1.0\s|facebookexternalhit/1.1\s|Slackbot-LinkExpanding\s|Slackbot\s|Slack\sImg\sProxy\s|Google\sPage\sSpeed\sInsights\sFor\sApps)\b

这个正则表达式使用了管道符号(|)来匹配多个可能的 User-Agent 字符串,每个字符串都用转义字符(\)来转义特殊字符。这些字符串包括常见的蜘蛛(如 Googlebot、Baiduspider、YandexBot 等)和自动扫描器(如 AhrefsBot、SemrushBot、DotBot 等)。

请注意,这个正则表达式只是一个简单的示例,可能无法匹配所有蜘蛛和自动扫描器。要完全放行蜘蛛和自动扫描器,建议使用更复杂的方法,如 IP 地址过滤、反爬虫技术等。


原文地址: https://www.cveoy.top/t/topic/qqZ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录