Python 抓取网页文本及对应 CSS 选择器

要找到web中所有文本和对应的CSS选择器，可以使用Python的requests和BeautifulSoup库来实现。\n\n首先，你需要使用requests库从web页面中获取HTML内容。例如，使用以下代码获取页面内容：\n\npython\nimport requests\n\nresponse = requests.get('http://example.com')\nhtml_content = response.text\n\n\n接下来，你需要使用BeautifulSoup库解析HTML内容，并找到所有的文本和对应的CSS选择器。以下是一个示例代码：\n\npython\nfrom bs4 import BeautifulSoup\n\nsoup = BeautifulSoup(html_content, 'html.parser')\n\n# 找到所有的文本和对应的CSS选择器\ntext_selectors = []\nfor element in soup.find_all(text=True):\n if element.parent.name not in ['script', 'style']:\n text = element.strip()\n css_selector = soup.find(text=text).parent.get('class', [])\n text_selectors.append((text, css_selector))\n\n# 打印所有的文本和对应的CSS选择器\nfor text, css_selector in text_selectors:\n print(f'Text: {text}')\n print(f'CSS Selector: {css_selector}')\n print('---')\n\n\n这个示例代码会找到页面中所有的文本和对应的CSS选择器，并将它们打印出来。\n\n请注意，这个方法只能找到直接在HTML标签中的文本，对于通过JavaScript生成的动态文本，这个方法无法找到。