假设语料库中共有N条语句。

  1. 对于词项"今天",计算TF (Term Frequency):

    • 在第一条语句中出现1次,TF("今天") = 1
    • 在第二条语句中未出现,TF("今天") = 0
    • 在第三条语句中未出现,TF("今天") = 0

    计算DF (Document Frequency):

    • 在语料库中出现1次,DF("今天") = 1

    计算IDF (Inverse Document Frequency):

    • IDF("今天") = log(N / (DF("今天") + 1))

    计算TF-IDF:

    • TF-IDF("今天") = TF("今天") * IDF("今天")
  2. 对于词项"NLP",计算TF:

    • 在第一条语句中未出现,TF("NLP") = 0
    • 在第二条语句中未出现,TF("NLP") = 0
    • 在第三条语句中未出现,TF("NLP") = 0

    计算DF:

    • 在语料库中未出现,DF("NLP") = 0

    计算IDF:

    • IDF("NLP") = log(N / (DF("NLP") + 1))

    计算TF-IDF:

    • TF-IDF("NLP") = TF("NLP") * IDF("NLP")

所以,根据给定的语料库和假设的情况下,"今天"的TF-IDF值为 TF-IDF("今天") = 1 * IDF("今天"),"NLP"的TF-IDF值为 TF-IDF("NLP") = 0 * IDF("NLP")

TF-IDF 是自然语言处理中非常经典的一种文本重要性衡量指标。给定如下三条语句分别为今天上NPE 今元的课程有意思CV课程 也有意思其中代表对中文的分词以这三条语句组成一个语料库使用TF-DF方法对第一条语句中的今天和NLP进行表示假设所有权重不进行加权或者归一化操作那么他们的值分别为

原文地址: https://www.cveoy.top/t/topic/iIiE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录