Python 自然语言理解入门：文本分词、去停用词和关键词提取

这是一个使用 Python 编写的入门级自然语言理解程序的简单示例：

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

def text_processing(text):
    # 分词
    tokens = word_tokenize(text.lower())
    
    # 去除停用词
    stop_words = set(stopwords.words('english'))
    tokens = [token for token in tokens if token not in stop_words]
    
    # 提取关键词
    keywords = nltk.pos_tag(tokens)
    
    return keywords

# 输入文本
text = 'I love eating ice cream!'

# 文本处理
keywords = text_processing(text)

# 打印关键词
print('关键词:')
for keyword in keywords:
    print(keyword[0], '-', keyword[1])

这个程序演示了一个简单的自然语言理解任务，包括文本分词、去除停用词和提取关键词。

首先，我们使用nltk库中的word_tokenize函数将输入文本进行分词，将文本划分为一个个单词或标点符号。

接下来，我们使用nltk库中的stopwords语料库获取英语停用词，并将其存储在一个集合中。然后，我们使用列表推导式过滤掉分词结果中的停用词。

最后，我们使用nltk库中的pos_tag函数对处理后的文本进行词性标注，将每个单词与其对应的词性进行匹配。

程序的输出是处理后的关键词列表，以及每个关键词的词性标注。你可以根据具体需要对关键词进行进一步处理或应用于其他任务中。