Python爬取HTML中script标签的值:正则表达式与BeautifulSoup方法
"如何爬取HTML里的script标签里面的值"\n\n要爬取HTML中的script标签中的值,可以使用Python中的正则表达式或者BeautifulSoup库。\n\n使用正则表达式的方法如下:\n\n python\nimport re\n\n# 假设html为HTML源代码\nhtml = \"\"\"\n<html>\n <body>\n <script>\n var value = 'hello world';\n </script>\n </body>\n</html>\n\"\"\"\n\n# 使用正则表达式匹配script标签中的值\npattern = r"<script>(.*?)</script>"\nmatches = re.findall(pattern, html, re.DOTALL)\n\n# 输出匹配到的所有值\nfor match in matches:\n print(match.strip())\n\n\n使用BeautifulSoup库的方法如下:\n\n python\nfrom bs4 import BeautifulSoup\n\n# 假设html为HTML源代码\nhtml = \"\"\"\n<html>\n <body>\n <script>\n var value = 'hello world';\n </script>\n </body>\n</html>\n\"\"\"\n\n# 使用BeautifulSoup解析HTML\nsoup = BeautifulSoup(html, 'html.parser')\n\n# 找到所有的script标签\nscript_tags = soup.find_all('script')\n\n# 输出每个script标签中的值\nfor script_tag in script_tags:\n print(script_tag.string.strip())\n\n\n以上两种方法都可以用来爬取HTML中script标签中的值,具体使用哪种方法取决于个人的偏好和需求。
原文地址: https://www.cveoy.top/t/topic/pInj 著作权归作者所有。请勿转载和采集!