R语言爬取知乎问题图片:快速下载所有原始图片
由于知乎的图片分散在不同的服务器上,无法直接通过网页源码中的图片链接进行批量下载。本文将介绍使用R语言和rvest、httr 包,从知乎问题页面下载所有原始图片到本地文件夹的解决方案。
步骤:
- 安装R语言和必要包:
install.packages('rvest')
install.packages('httr')
- 使用
rvest获取网页源码并提取图片链接:
library(rvest)
library(httr)
url <- 'https://www.zhihu.com/question/30456390'
html <- read_html(url)
# 使用正则表达式匹配所有图片链接
pattern <- '(https:\/\/pic\d\.zhimg\.com\/\S+?\.(jpg|png))'
img_links <- regmatches(html_text(html), gregexpr(pattern, html_text(html)))[[1]]
- 使用
httr下载图片文件:
# 创建文件夹保存图片
dir.create('zhihu_pics')
# 循环下载所有图片
for (i in seq_along(img_links)) {
filename <- paste0('zhihu_pics/', basename(img_links[i]))
GET(img_links[i], write_disk(filename, overwrite = TRUE))
}
通过以上步骤,即可将知乎问题 'https://www.zhihu.com/question/30456390' 下的所有原始图片文件下载到本地 zhihu_pics 文件夹中。
原文地址: https://www.cveoy.top/t/topic/nCqA 著作权归作者所有。请勿转载和采集!