一名自然语言处理程序员正在写中文文本分类论文请你基于下面一段话重新组织语言写详细写丰富： 文本预处理阶段首先使用python网络爬虫爬取国内物流上的物流文章再进行文本的预处理丢弃掉无意义的字符在进行分词时引入物流领域的词典从而提高分词准确率引入网上开源的停用词表对文本预处理最后将文本word2vec表示。 种子词集扩展阶段在word2vec中直接使用linesentence进行词向量

在中文文本分类中，文本预处理阶段是非常重要的。为了获得高质量的语料库，我们首先使用Python网络爬虫爬取国内物流上的物流文章。接着，我们对文本进行预处理，丢弃无意义的字符。在进行分词时，我们使用物流领域的词典，以提高分词准确率。同时，我们还引入网上开源的停用词表对文本进行预处理。最后，我们将文本表示为Word2Vec。

在种子词集扩展阶段，我们直接使用LineSentence在Word2Vec中进行词向量训练。这样做可以避免前期构建语料时的复杂性问题，并得到全量语料库。接着，我们输入物流相关的种子词汇，对其进行扩展。得到的相似词汇再由人工进行筛选，最终得到100个物流相关的词汇。这些词汇将用于对文本数据进行过滤。

在关键词抽取阶段，我们首先进行关键词特征权重选择。我们考虑了词频-逆文档频率、长度特征、位置特征、词跨度特征和标题特征等五种词汇特征。我们将这些特征组成综合权重公式模型，并加入抽取效果评价指标。这些指标包括抽取效果的准确率、关键词的召回率和综合评价指标。我们采用平均准确率指标MAP和归一化折损累计增益NDCG作为抽取效果的关键词排序指标。

通过上述步骤，我们能够获得高质量的语料库和关键词，并用它们对文本数据进行分类。这些技术和方法对于提高中文文本分类的准确率和效率非常重要。