python re 清理超链接保留文字
可以使用正则表达式来清理超链接中的HTML标签,保留其中的文字。以下是一个示例代码:
import re
html = '<a href="http://www.example.com">Example</a>'
clean_text = re.sub('<.*?>', '', html) # 清除所有HTML标签
clean_text = re.sub('\s+', ' ', clean_text) # 合并多个空格为一个空格
clean_text = clean_text.strip() # 去除首尾空格
print(clean_text) # 输出:Example
在上面的代码中,我们使用了两个正则表达式来清理超链接中的HTML标签。第一个正则表达式<.*?>匹配所有的HTML标签,包括<a>、</a>和其中的属性。我们使用空字符串''来代替这些标签,从而清除它们。第二个正则表达式\s+匹配多个连续的空格,我们使用单个空格来代替它们。最后,我们使用strip()函数去除清理后字符串的首尾空格。这样,我们就得到了超链接中保留的文本
原文地址: https://www.cveoy.top/t/topic/fPcd 著作权归作者所有。请勿转载和采集!