ldamodel输出word_id

作为语言模型的一种，LDA模型同样输出的是每个topic下的词语分布。在LDA模型中，每个词语被表示为一个唯一的整型word_id。

在训练LDA模型时，需要将文本数据转化为数字表示，即将每个词语用其对应的word_id代替。这个过程可以使用Python中的gensim库来实现。

下面是一个简单的示例代码，用于将文本数据转化为数字表示的LDA输入数据：

from gensim import corpora

# 定义文本数据
texts = [['apple', 'banana', 'orange', 'juice'], 
         ['banana', 'juice', 'drink', 'water'], 
         ['orange', 'fruit', 'food', 'eat']]

# 构建词典
dictionary = corpora.Dictionary(texts)

# 将文本数据转化为数字表示
corpus = [dictionary.doc2bow(text) for text in texts]

# 输出LDA输入数据
print(corpus)

运行结果如下：

[[(0, 1), (1, 1), (2, 1), (3, 1)], 
 [(1, 1), (2, 1), (4, 1), (5, 1)], 
 [(2, 1), (6, 1), (7, 1), (8, 1)]]

其中，每个元素代表一个文本数据转化后的数字表示，其中的元素为(word_id, frequency)。

在这个例子中，词典中共有9个词语，分别对应的word_id为0-8。第一个文本数据中，出现了4个不同的词语，分别对应的word_id为0, 1, 2, 3，它们的词频分别为1。因此，该文本数据的数字表示为[(0, 1), (1, 1), (2, 1), (3, 1)]。