Python网页文本提取:获取所有可见文本及其CSS选择器
"如何使用python找到web中所有用户可见的文本和对应的css选择器"\n\n要找到Web中所有用户可见的文本和对应的CSS选择器,可以使用Python的库来解析HTML页面并提取文本和对应的CSS选择器。\n\n以下是一个使用BeautifulSoup库的例子:\n\npython\nfrom bs4 import BeautifulSoup\nimport requests\n\n# 获取页面内容\nurl = \"https://example.com\" # 替换为你要抓取的网页URL\nresponse = requests.get(url)\nhtml = response.text\n\n# 使用BeautifulSoup解析HTML\nsoup = BeautifulSoup(html, \"html.parser\")\n\n# 找到所有的文本和对应的CSS选择器\nfor element in soup.find_all(text=True):\n if element.strip(): # 去除空白字符\n css_selector = \"\";\n for parent in element.parents:\n if parent.name:\n css_selector = parent.name + \" > \" + css_selector\n css_selector += element.parent.name\n print(f\"文本: {element.strip()}\")\n print(f\"CSS选择器: {css_selector}\")\n print()\n\n\n注意,这只是一个简单的例子,它只会找到页面中直接包含文本的元素,并以CSS选择器的形式打印出来。如果要找到更复杂的情况,例如文本是通过JavaScript动态加载的,或者文本被包含在iframe中,可能需要更复杂的处理方式。
原文地址: http://www.cveoy.top/t/topic/qan6 著作权归作者所有。请勿转载和采集!