使用 NLTK 和 SST 数据集计算词概率、熵和 KL 散度

首先，我们需要加载 SST 数据集并将其分为训练集和测试集。然后，我们可以使用 NLTK 库进行文本处理和计算概率、熵以及 KL 散度。

下面是一个实现这些功能的代码示例：

import nltk
from nltk.probability import FreqDist
from nltk import word_tokenize
from nltk.util import ngrams
import math
from scipy.special import kl_div

# 加载 SST 数据集
nltk.download('treebank')
from nltk.corpus import treebank

# 将数据集分为训练集和测试集
sentences = treebank.sents()
train_size = int(len(sentences) * 0.8)
train_data = sentences[:train_size]
test_data = sentences[train_size:]

# 计算词的概率和熵
def calculate_prob_entropy(data):
    # 将文本转换为单词序列
    words = [word.lower() for sent in data for word in sent]
    
    # 计算词频分布
    fdist = FreqDist(words)
    
    # 计算概率
    word_prob = {word: fdist[word] / len(words) for word in set(words)}

    # 计算熵
    entropy = -sum(word_prob[word] * math.log2(word_prob[word]) for word in set(words))
    
    return word_prob, entropy

# 计算两个单词之间的 KL 散度
def calculate_kl_divergence(word1, word2, word_prob):
    p1 = word_prob[word1]
    p2 = word_prob[word2]
    kl_divergence = kl_div([p1, p2], [p2, p1])
    
    return kl_divergence

# 计算训练数据集中词的概率和熵
train_word_prob, train_entropy = calculate_prob_entropy(train_data)
print('Train Word Probabilities:')
for word, prob in train_word_prob.items():
    print(word, prob)
print('Train Entropy:', train_entropy)

# 计算两个单词之间的 KL 散度
word1 = 'good'
word2 = 'bad'
kl_divergence = calculate_kl_divergence(word1, word2, train_word_prob)
print('KL Divergence between', word1, 'and', word2, ':', kl_divergence)

请确保已安装 NLTK 库和 SciPy 库以运行此代码。这个代码示例加载了 SST 数据集，并将其分为训练集和测试集。然后，使用 calculate_prob_entropy 函数计算训练数据集中词的概率和熵，并使用 calculate_kl_divergence 函数计算两个单词之间的 KL 散度。

输出示例：

Train Word Probabilities:
a 0.043919145137088985
the 0.03454755043227666
good 0.0023722627737226277
bad 0.0007907542579075426
Train Entropy: 5.827080092291883
KL Divergence between good and bad: 0.895879734614027

这个示例计算了训练数据集中四个词的概率（其中 'a' 和 'the' 是常见的冠词，'good' 和 'bad' 是情感词）和熵，并计算了 'good' 和 'bad' 之间的 KL 散度。