使用NLTK处理SST-2数据集：词频统计与词级熵计算

首先，我们需要加载SST-2数据集。SST-2是一个用于情感分类的数据集，其中包含了许多句子及其对应的情感标签（正面或负面）。

import nltk

# 加载SST-2数据集
from nltk.corpus import sst
sst.ensure_loaded()

# 获取数据集的标签和句子
sentences = sst.sents()
labels = sst.labels()

# 将每个句子转换为单个令牌列表
tokenized_sentences = [nltk.word_tokenize(sent) for sent in sentences]

接下来，我们将计算每个词的概率和词级熵。NLTK中的FreqDist类可以用于计算词频，并通过除以总词数得到词的概率。然后，我们可以使用这些概率计算词级熵。

# 计算词频
word_freq = nltk.FreqDist([word.lower() for sent in tokenized_sentences for word in sent])

# 计算词的概率
word_prob = {word: freq/len(word_freq) for word, freq in word_freq.items()}

# 计算词级熵
word_entropy = {word: -prob * math.log(prob, 2) for word, prob in word_prob.items()}

现在，word_prob字典将包含每个词的概率，word_entropy字典将包含每个词的词级熵。