Python 抓取网页文本及对应 CSS 选择器
要找到web中所有文本和对应的CSS选择器,可以使用Python的requests和BeautifulSoup库来实现。\n\n首先,你需要使用requests库从web页面中获取HTML内容。例如,使用以下代码获取页面内容:\n\npython\nimport requests\n\nresponse = requests.get('http://example.com')\nhtml_content = response.text\n\n\n接下来,你需要使用BeautifulSoup库解析HTML内容,并找到所有的文本和对应的CSS选择器。以下是一个示例代码:\n\npython\nfrom bs4 import BeautifulSoup\n\nsoup = BeautifulSoup(html_content, 'html.parser')\n\n# 找到所有的文本和对应的CSS选择器\ntext_selectors = []\nfor element in soup.find_all(text=True):\n if element.parent.name not in ['script', 'style']:\n text = element.strip()\n css_selector = soup.find(text=text).parent.get('class', [])\n text_selectors.append((text, css_selector))\n\n# 打印所有的文本和对应的CSS选择器\nfor text, css_selector in text_selectors:\n print(f'Text: {text}')\n print(f'CSS Selector: {css_selector}')\n print('---')\n\n\n这个示例代码会找到页面中所有的文本和对应的CSS选择器,并将它们打印出来。\n\n请注意,这个方法只能找到直接在HTML标签中的文本,对于通过JavaScript生成的动态文本,这个方法无法找到。
原文地址: https://www.cveoy.top/t/topic/qant 著作权归作者所有。请勿转载和采集!