中文情感分析数据预处理代码:构建词汇表、词向量和索引数组
该代码为进行情感分析的数据预处理代码,主要包括以下几个部分:
-
导入所需的包和模块,包括pandas、numpy、gensim等。
-
定义了一个名为'Data_set'的类,用于定义数据集。
-
定义了'data_preview()'函数,用于预览原始数据的大小、描述信息等。
-
定义了'stopwordslist()'函数,用于创建停用词表。
-
定义了'build_word2id()'函数,用于构建词汇表。
-
定义了'build_id2word()'函数,用于得到id2word。
-
定义了'build_word2vec()'函数,用于得到语料文本中词汇集对应的word2vec向量。
-
定义了'text_to_array()'函数,用于将原始文本转化为索引数字数组。
-
定义了'text_to_array_nolabel()'函数,用于将原始文本(仅包括文本)转化为索引数字数组。
-
定义了'to_categorical()'函数,用于将类别转化为one-hot编码。
-
定义了'prepare_data()'函数,用于得到数字索引表示的句子和标签。
-
在主函数中,首先通过'data_preview()'函数预览了原始数据。
-
然后通过'build_word2id()'函数建立了词汇表。
-
接着通过'build_word2vec()'函数得到语料文本中词汇集对应的word2vec向量。
-
最后通过'prepare_data()'函数得到数字索引表示的句子和标签,并将其保存到本地文件中。
其中,注释中的# !usr/bin/env python # -- coding:utf-8 -- 表示该代码是用Python编写的,并且采用UTF-8编码格式。' @Author'、' @Date'、' @Version'、' @LastEditors'、' @LastEditTime'、' @Description'、' @FilePath'等为注释信息,用于说明作者、日期、版本、最后编辑者、最后编辑时间、代码描述和代码所在路径等信息。
原文地址: https://www.cveoy.top/t/topic/m1qR 著作权归作者所有。请勿转载和采集!