统计中文词组出现的频率
要统计中文词组的频率,可以使用以下步骤:
-
收集文本数据:首先,需要收集一些中文文本数据,可以是文章、新闻、小说等。可以从互联网上获取或者使用已有的语料库。
-
分词:使用中文分词工具,如jieba分词,将文本数据分割成词语。分词后的结果是一个词语列表。
-
统计词组频率:遍历分词结果,将连续的词语组合成词组,然后统计每个词组的出现频率。可以使用Python的collections.Counter类来进行统计。
-
排序:根据词组的频率进行排序,可以按照频率降序排列。
下面是一个简单的示例代码,演示如何统计中文词组的频率:
import jieba
from collections import Counter
# 示例文本数据
text = "我爱北京天安门,天安门上太阳升。"
# 分词
words = jieba.lcut(text)
# 统计词组频率
ngram = 2 # 词组长度
ngram_counts = Counter(''.join(words[i:i+ngram]) for i in range(len(words)-ngram+1))
# 排序
sorted_counts = sorted(ngram_counts.items(), key=lambda x: x[1], reverse=True)
# 输出结果
for word, count in sorted_counts:
print(word, count)
这个示例代码将输出词组的频率,按照频率降序排列。可以根据实际需求修改代码,例如调整词组长度,添加更多的文本数据等
原文地址: https://www.cveoy.top/t/topic/h7BM 著作权归作者所有。请勿转载和采集!