如何使用Python从HTML脚本中获取图片URL
这个脚本的功能是判断用户的浏览器是否为IE6.0,并根据判断结果进行不同的操作。
首先,脚本获取用户的浏览器信息(User-Agent),保存在变量ua中。
接下来,创建一个新的图片对象img,以及一个url变量,url变量保存的是一个图片的地址。
然后,脚本通过判断ua中是否包含"MSIE 6.0"字符串,来确定用户的浏览器是否为IE6.0版本。如果是IE6.0版本,脚本会将页面重定向到'/ComicView/showLowExplorerPage'这个URL。
接着,设置img的onload事件处理函数,当图片加载完成时执行该函数。在函数中,将img的onload事件处理函数置空,将img对象置空,然后将url赋值给window对象的loadedFirstPic属性。
最后,将url赋值给img的src属性,开始加载图片。
根据以上代码,要获取url的值,可以通过解析脚本中的字符串来获取。可以使用正则表达式或字符串截取等方法来提取url的值。在这个例子中,url的值为"https://manhua.acimg.cn/manhua_detail/0/02_19_50_4600f271d6a8277b324d056560cd6664_17631.jpg/0"。
以下是使用Python获取url的值的示例代码:
import re
script = '''
! function () {
var ua = navigator.userAgent,
img = new Image(),
url = "https://manhua.acimg.cn/manhua_detail/0/02_19_50_4600f271d6a8277b324d056560cd6664_17631.jpg/0";
if (ua.indexOf('MSIE 6.0') !== -1) {
window.location.href = '/ComicView/showLowExplorerPage';
}
img.onload = function () {
img.onload = null;
img = null;
window.loadedFirstPic = url;
}
img.src = url;
}();
window["no" + "nce"] = '' + '56bd8b5705d16bb2be5f65482dd11d7b';
'''
# 使用正则表达式提取url的值
match = re.search(r'url = "(.*?)"', script)
if match:
url = match.group(1)
print(url)
# 或者使用字符串截取的方法提取url的值
start_index = script.find('url = "') + len('url = "')
end_index = script.find('"', start_index)
url = script[start_index:end_index]
print(url)
以上代码使用了正则表达式和字符串截取两种方法来获取url的值。结果会输出"https://manhua.acimg.cn/manhua_detail/0/02_19_50_4600f271d6a8277b324d056560cd6664_17631.jpg/0"。
原文地址: https://www.cveoy.top/t/topic/pHuZ 著作权归作者所有。请勿转载和采集!