如何用python爬取网页

使用Python爬取网页的步骤如下：

导入所需的库：Python中有很多库可以用来爬取网页，例如requests、beautifulsoup4、selenium等。在使用之前需要先导入所需的库。
发送请求：使用requests库发送请求，获取目标网页的HTML源代码。可以使用requests库中的get()方法来发送GET请求，post()方法来发送POST请求。
解析HTML代码：使用beautifulsoup4库解析HTML代码，并提取所需的信息。可以使用beautifulsoup4库中的BeautifulSoup()方法来解析HTML代码。
存储数据：将提取的数据存储到本地文件或数据库中。

以下是一个简单的示例代码，用于爬取百度首页并打印其HTML源代码：

import requests
from bs4 import BeautifulSoup

url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

需要注意的是，在爬取网页时需要遵守相关法律法规和网站的使用规定，不得进行非法爬取或侵犯他人权益的行为。