中文情感分析数据预处理代码：构建词汇表、词向量和索引数组

该代码为进行情感分析的数据预处理代码，主要包括以下几个部分：

导入所需的包和模块，包括pandas、numpy、gensim等。
定义了一个名为'Data_set'的类，用于定义数据集。
定义了'data_preview()'函数，用于预览原始数据的大小、描述信息等。
定义了'stopwordslist()'函数，用于创建停用词表。
定义了'build_word2id()'函数，用于构建词汇表。
定义了'build_id2word()'函数，用于得到id2word。
定义了'build_word2vec()'函数，用于得到语料文本中词汇集对应的word2vec向量。
定义了'text_to_array()'函数，用于将原始文本转化为索引数字数组。
定义了'text_to_array_nolabel()'函数，用于将原始文本（仅包括文本）转化为索引数字数组。
定义了'to_categorical()'函数，用于将类别转化为one-hot编码。
定义了'prepare_data()'函数，用于得到数字索引表示的句子和标签。
在主函数中，首先通过'data_preview()'函数预览了原始数据。
然后通过'build_word2id()'函数建立了词汇表。
接着通过'build_word2vec()'函数得到语料文本中词汇集对应的word2vec向量。
最后通过'prepare_data()'函数得到数字索引表示的句子和标签，并将其保存到本地文件中。

其中，注释中的# !usr/bin/env python # -- coding:utf-8 -- 表示该代码是用Python编写的，并且采用UTF-8编码格式。' @Author'、' @Date'、' @Version'、' @LastEditors'、' @LastEditTime'、' @Description'、' @FilePath'等为注释信息，用于说明作者、日期、版本、最后编辑者、最后编辑时间、代码描述和代码所在路径等信息。