python re 清理超链接保留文字

可以使用正则表达式来清理超链接中的HTML标签，保留其中的文字。以下是一个示例代码：

import re

html = '<a href="http://www.example.com">Example</a>'

clean_text = re.sub('<.*?>', '', html)  # 清除所有HTML标签
clean_text = re.sub('\s+', ' ', clean_text)  # 合并多个空格为一个空格
clean_text = clean_text.strip()  # 去除首尾空格

print(clean_text)  # 输出：Example

在上面的代码中，我们使用了两个正则表达式来清理超链接中的HTML标签。第一个正则表达式<.*?>匹配所有的HTML标签，包括<a>、</a>和其中的属性。我们使用空字符串''来代替这些标签，从而清除它们。第二个正则表达式\s+匹配多个连续的空格，我们使用单个空格来代替它们。最后，我们使用strip()函数去除清理后字符串的首尾空格。这样，我们就得到了超链接中保留的文本