Python爬虫实战:解析北京市医药监管局官网获取公司名称
{"title":"Python爬虫实战:解析北京市医药监管局官网获取公司名称","description":"本文介绍使用Python爬虫技术解析北京市医药监管局官网页面,获取网站上的15条公司名称,并讲解如何修改xpath路径以获取目标数据。","keywords":"Python, 爬虫, Selenium, xpath, 北京市医药监管局, 公司名称, 数据抓取","content":"from selenium import webdriver\nfrom time import sleep\nfrom lxml import etree\n# 实例化一个浏览器对象(传入浏览器的驱动)\nbro = webdriver.Chrome()\n\nbro.get('http://xxcx.yjj.beijing.gov.cn/eportal/ui?pageId=723843')\n\n# 获取浏览器当前页面的页面源码数据\npage_text = bro.page_source\n\n# 解析企业名称\ntree = etree.HTML(page_text)\ntr_list = tree.xpath('//*[@id="form"]/div[2]/table/tbody/tr')\nfor tr in tr_list:\n name = tr.xpath('./td/a/text()')\n print(name)\nsleep(5)\nbro.quit()\n怎么让这个程序输出这个网页的15条公司名字\n该怎样修改xpath路径内容:要输出网页的15条公司名字,可以将xpath路径修改为以下代码:\n\nname = tr.xpath('./td/a/text()')"}
原文地址: http://www.cveoy.top/t/topic/pYkj 著作权归作者所有。请勿转载和采集!