Python 代码监控网站新增内容:实时追踪 WatchSeriesStream.com 作品更新
使用 Python 代码监控 WatchSeriesStream.com 网站新增作品
本示例代码使用 Python 的 requests, BeautifulSoup 和 time 模块,实现对 https://watchseriesstream.com/home 网站内容变化的实时监控,并在发现新增作品时,输出作品名称和链接。
代码:
import requests
from bs4 import BeautifulSoup
import time
url = 'https://watchseriesstream.com/home'
# 记录当前作品数量
current_count = 0
while True:
# 获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取作品列表
items = soup.select('ul.listings > li')
# 计算作品数量
count = len(items)
# 如果有新增作品,输出作品名称和链接
if count > current_count:
for item in items[current_count:]:
title = item.find('h3').text
link = item.find('a')['href']
print(f'新增作品:{title},链接:{link}')
# 更新当前作品数量
current_count = count
# 休眠一段时间后再次获取网页内容
time.sleep(60)
代码功能说明:
- 获取网页内容: 使用
requests模块获取指定网站的 HTML 内容。 - 解析网页数据: 使用
BeautifulSoup模块解析 HTML 内容,提取所需信息。 - 提取作品信息: 通过 CSS 选择器
ul.listings > li获取所有作品列表项,并提取每个作品的标题和链接。 - 判断新增作品: 比较当前作品数量与上次记录的数量,如果有增加,则认为有新增作品。
- 输出新增作品: 输出新增作品的标题和链接。
- 更新作品数量: 更新当前作品数量,以便下次比较时识别新增作品。
- 循环监控: 每隔 60 秒执行一次上述流程,实现对网站内容的实时监控。
使用说明:
- 确保已安装
requests和BeautifulSoup模块。 - 将代码保存为
.py文件,并运行该文件。 - 代码会持续监控网站内容,并在发现新增作品时将其输出到控制台。
注意:
- 网站可能会修改页面结构,导致代码无法正常运行。建议定期检查代码并根据实际情况进行调整。
- 频繁访问网站可能会对服务器造成压力,请适度控制访问频率。
原文地址: https://www.cveoy.top/t/topic/l48W 著作权归作者所有。请勿转载和采集!