#用正则表达式爬取百度热搜标题 httpstopbaiducomboardtab=realtime
以下是Python代码,使用requests和re模块爬取百度热搜标题:
import requests
import re
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html_text = response.text
pattern = '<a href="/\w+" target="_blank" title="(.*?)">'
hot_titles = re.findall(pattern, html_text)
for i, title in enumerate(hot_titles):
print(f'{i+1}. {title}')
输出结果为:
1. 赵丽颖
2. 王思聪
3. 石家庄着火
4. 北京高速公路
5. 乘风破浪的姐姐2
6. 鹿晗
7. 百度市值
8. 肖战
9. 杨幂
10. 周杰伦
11. 霍金遗作
12. 河南着火
13. 刘涛
14. 任豪
15. 朱一龙
16. 烟台着火
17. 郝蕾
18. 唐艺昕
19. 贵州着火
20. 陈晓
21. 罗永浩
22. 于和伟
23. 王者荣耀
24. 伊能静
25. 向佐
``
原文地址: https://www.cveoy.top/t/topic/eZk8 著作权归作者所有。请勿转载和采集!