爬取京东手机内容
对于京东手机内容的爬取,我们可以使用Python中的Requests库和BeautifulSoup库来实现。
首先,我们需要通过Requests库向京东手机页面发送请求,获取到页面的HTML源码。代码如下:
import requests
url = 'https://list.jd.com/list.html?cat=9987,653,655'
r = requests.get(url)
html = r.text
接着,我们需要使用BeautifulSoup库来解析HTML源码,并提取出我们需要的信息。在这里,我们需要获取每款手机的名称、价格和链接。代码如下:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
items = soup.find_all('li', class_='gl-item')
for item in items:
name = item.find('div', class_='p-name').find('a').text.strip()
price = item.find('div', class_='p-price').find('i').text
link = item.find('div', class_='p-name').find('a')['href']
print(name, price, link)
最后,我们可以将获取到的信息存储到本地文件中,或者将其存储到数据库中,以便后续的分析和使用。完整代码如下:
import requests
from bs4 import BeautifulSoup
url = 'https://list.jd.com/list.html?cat=9987,653,655'
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'html.parser')
items = soup.find_all('li', class_='gl-item')
for item in items:
name = item.find('div', class_='p-name').find('a').text.strip()
price = item.find('div', class_='p-price').find('i').text
link = item.find('div', class_='p-name').find('a')['href']
print(name, price, link)
需要注意的是,由于京东网站有反爬虫机制,我们在爬取时需要设置一些请求头信息,以避免被网站屏蔽。可以参考以下代码设置请求头信息:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
r = requests.get(url, headers=headers)
原文地址: https://www.cveoy.top/t/topic/YBr 著作权归作者所有。请勿转载和采集!