闻香识女人 Scent of a Woman (1992) - 豆瓣电影
《闻香识女人》 (Scent of a Woman) 1992年上映的美国剧情片,讲述了盲退伍军人弗兰克·斯拉德和高中生查理·西蒙之间的故事。该片由马丁·布莱斯特执导,阿尔·帕西诺主演,获得了第65届奥斯卡最佳男主角奖和最佳改编剧本奖。
影片讲述了查理·西蒙被学校要求写一篇关于感恩节的作文,他为了寻找素材而接触到弗兰克·斯拉德,弗兰克是一位脾气暴躁、性格古怪的退伍军人。查理陪同弗兰克去纽约参加一个周末的旅行,他们之间发生了一系列的趣事和感人的故事。
影片获得广泛的好评,被誉为一部经典的电影。阿尔·帕西诺凭借在影片中的出色表演获得了第65届奥斯卡最佳男主角奖,这也是他个人获得的第一个奥斯卡奖。
为什么用re单独可以提取里面的图片网址,直接用requests爬取text,再用re提取就不行?
可能是因为该网站有反爬虫机制,requests获取到的文本中可能会包含一些特殊字符或标签,导致正则表达式无法正确匹配到图片网址。此时可以使用BeautifulSoup库来解析文本,再使用CSS选择器或Xpath来定位图片网址。
如何使用BeautifulSoup解析文本并提取图片网址?
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/subject/1298624/'
response = requests.get(url)
response.encoding = 'utf-8'
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 使用CSS选择器提取图片网址
img_tag = soup.select_one('.cover-link img')
img_url = img_tag['src']
# 打印图片网址
print(img_url)
需要注意的是,使用BeautifulSoup库解析文本时,需要安装该库,可以使用pip install beautifulsoup4进行安装。
原文地址: https://www.cveoy.top/t/topic/ohk8 著作权归作者所有。请勿转载和采集!