CountVectorizer与TfidfTransformer：文本特征提取和向量化利器

CountVectorizer和TfidfTransformer是Scikit-learn库中常用的文本特征提取和向量化工具，它们都是基于词袋模型的方法，常与机器学习算法结合使用，对文本数据进行建模和分析。

CountVectorizer用于将文本数据转换为词频矩阵。它将文本拆分成单个词语，并计算每个词语在文本中出现的次数。

**代码示例：**pythonfrom sklearn.feature_extraction.text import CountVectorizer

创建CountVectorizer对象vectorizer = CountVectorizer()

输出结果：

二维的词频矩阵，每行代表一个文本样本，每列代表一个词语的出现次数。get_feature_names_out()方法返回特征词语的列表。

TfidfTransformer用于将词频矩阵转换为TF-IDF（Term Frequency-Inverse Document Frequency）矩阵。TF-IDF是一种用于衡量词语在文本中重要性的统计方法，它将一个词语的词频与其在整个文档中的逆文档频率相乘。

**代码示例：**pythonfrom sklearn.feature_extraction.text import TfidfTransformer

输出结果：

二维的TF-IDF矩阵，每行代表一个文本样本，每列代表一个词语的TF-IDF值。

CountVectorizer和TfidfTransformer通常一起使用：

这样的组合能够有效地将文本数据转换为机器学习算法可处理的数值向量，从而进行文本分类、聚类、情感分析等任务。