Python爬取网页数据并提取课程信息 - 爬取ouchn.cn LMS课程列表
使用Python爬取ouchn.cn LMS网站课程列表
本示例代码展示了如何使用Python的requests库和BeautifulSoup库爬取ouchn.cn LMS网站的课程列表,并提取所有课程名称信息。
代码示例:
import requests
from bs4 import BeautifulSoup
headers = {
# 假装自己是浏览器
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36',
# 假装是自己人
'Cookie': '_ga=GA1.2.45674092.1683170582; HWWAFSESTIME=1687836388593; HWWAFSESID=dbab314e216cc292511; session=V2-6-29f84801-9276-4f29-aacc-9400003c1637.NTU2Nzc4.1687922802740.xMOPUTJLIZEJ5ylx6K6_6zIjCj8'
}
response = requests.get('https://lms.ouchn.cn/user/courses', headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
course_list = soup.find_all('a', {'class': 'ng-binding ng-scope'})
for course in course_list:
print(course.text)
代码说明:
- 使用requests库发送GET请求,模拟浏览器访问目标网站。
- 设置请求头信息,包括User-Agent和Cookie,以模拟真实用户的访问行为。
- 使用BeautifulSoup库解析HTML页面,查找包含课程名称信息的元素。
- 遍历所有课程元素,并提取课程名称文本。
注意:
- 以上代码示例仅供参考,实际使用时需根据网站结构进行调整。
- 爬取网站数据时应遵守网站的robots.txt协议,并避免对网站造成过大的负载。
- 使用Cookie模拟登录时,请勿使用他人账号信息,以免造成安全风险。
- 使用爬虫程序获取数据前,请务必了解相关法律法规,并确保您的行为合法合规。
更多学习资源:
- requests库文档: https://requests.readthedocs.io/
- BeautifulSoup库文档: https://beautiful-soup-4.readthedocs.io/
希望本示例能够帮助您学习使用Python爬取网页数据。
原文地址: https://www.cveoy.top/t/topic/oYVc 著作权归作者所有。请勿转载和采集!