Python爬取网页数据并提取课程信息 - 爬取ouchn.cn LMS课程列表 - 常规

使用Python爬取ouchn.cn LMS网站课程列表

本示例代码展示了如何使用Python的requests库和BeautifulSoup库爬取ouchn.cn LMS网站的课程列表，并提取所有课程名称信息。

代码示例：

import requests
from bs4 import BeautifulSoup

headers = {
    # 假装自己是浏览器
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36',
    # 假装是自己人
    'Cookie': '_ga=GA1.2.45674092.1683170582; HWWAFSESTIME=1687836388593; HWWAFSESID=dbab314e216cc292511; session=V2-6-29f84801-9276-4f29-aacc-9400003c1637.NTU2Nzc4.1687922802740.xMOPUTJLIZEJ5ylx6K6_6zIjCj8'
}
response = requests.get('https://lms.ouchn.cn/user/courses', headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

course_list = soup.find_all('a', {'class': 'ng-binding ng-scope'})
for course in course_list:
    print(course.text)

代码说明：

使用requests库发送GET请求，模拟浏览器访问目标网站。
设置请求头信息，包括User-Agent和Cookie，以模拟真实用户的访问行为。
使用BeautifulSoup库解析HTML页面，查找包含课程名称信息的元素。
遍历所有课程元素，并提取课程名称文本。

注意：

以上代码示例仅供参考，实际使用时需根据网站结构进行调整。
爬取网站数据时应遵守网站的robots.txt协议，并避免对网站造成过大的负载。
使用Cookie模拟登录时，请勿使用他人账号信息，以免造成安全风险。
使用爬虫程序获取数据前，请务必了解相关法律法规，并确保您的行为合法合规。

更多学习资源：

requests库文档: https://requests.readthedocs.io/
BeautifulSoup库文档: https://beautiful-soup-4.readthedocs.io/

希望本示例能够帮助您学习使用Python爬取网页数据。

Python爬取网页数据并提取课程信息 - 爬取ouchn.cn LMS课程列表