pyhton语言有BBC新闻数据集待分类的测试数据集为BBC News Testcsv其中的文本格式内容实例为ArticleId Text1018 qpr keeper day heads for preston queens park rangers keeper chris day is set to join preston on a month s loan day has been d

以下是Python代码实现：

import pandas as pd
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier

# 加载数据集
train_data = pd.read_csv("BBC News Train.csv")
test_data = pd.read_csv("BBC News Test.csv")

# 分词和词干提取
def tokenize(text):
    tokens = nltk.word_tokenize(text)
    stems = []
    for item in tokens:
        stems.append(nltk.PorterStemmer().stem(item))
    return stems

# 特征提取
vectorizer = TfidfVectorizer(tokenizer=tokenize, stop_words='english')
train_vectors = vectorizer.fit_transform(train_data['Text'])
test_vectors = vectorizer.transform(test_data['Text'])

# 训练模型
knn = KNeighborsClassifier()
knn.fit(train_vectors, train_data['Category'])

# 对测试集进行分类
predicted = knn.predict(test_vectors)

# 输出分类结果
for doc, category in zip(test_data['Text'], predicted):
    print('%r => %s' % (doc, category))

其中，首先使用pandas库加载训练数据集和测试数据集。然后，定义了一个函数tokenize，用于将文本进行分词和词干提取。接着，使用TfidfVectorizer类进行特征提取，将文本转化为词频或tf-idf值等特征向量。最后，使用KNeighborsClassifier类进行模型训练，并对测试数据集进行分类，输出分类结果。

需要注意的是，由于KNN算法计算量较大，因此在实际应用中可能需要进行模型优化和性能调优

pyhton语言有BBC新闻数据集待分类的测试数据集为BBC News Testcsv其中的文本格式内容实例为ArticleId Text1018 qpr keeper day heads for preston queens park rangers keeper chris day is set to join preston on a month s loan day has been d