一名自然语言处理程序员正在写中文文本分类论文请你基于下面一段话重新组织语言写详细写丰富:word2vec是google研究团队里的tomas mikolov等人于2013年的两篇文章中提出的一种高效训练词向量的模型。 word2vec模型由输入层、隐藏层、输出层构成。其中输入层是由one-hot向量转化的输入物流文本one-hot的维度是词袋中词的总个数n。其二隐藏层只有一层隐藏层它
在2013年,Google研究团队的Tomas Mikolov等人提出了一种高效训练词向量的模型——word2vec。该模型由输入层、隐藏层、输出层构成。其中输入层是由one-hot向量转化的输入物流文本,one-hot的维度是词袋中词的总个数n。而隐藏层只有一层,由线性单元组成,不加入激活函数功能,输入是输入词的长度n,神经元个数是m。隐藏层的参数是一个[n,m]的矩阵,实际上,这个参数矩阵就是词向量矩阵,m是词向量的大小。最后,输出层维度w'=m*n,输出维度和输入层一样。输出为y' = softmax((h * w')。
训练样本为(x,y),目标词对应位置的值为1,其余位置为0。输出y'是10000维的向量,每一个位置的值代表预测是该词的概率。然后采用交叉熵计算误差(y和y'),采用随机梯度来更新参数。这一过程中,word2vec主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(CBOW)。
跳字模型(skip-gram)用当前词来预测上下文,相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型(CBOW)则通过文章的上下文内容去预测所空的内容,相当于一句话中扣掉一个词,让你猜这个词是什么。模型的训练输入是某一个特征词的上下文相关的词对应的词向量,输出就是这特定的一个词的词向量。
除此之外,word2vec还提供了两种加速的方法:负采样技术和层次softmax技术。负采样技术通过随机抽取一些非目标词来进行训练,减少了训练时间。层次softmax技术则是通过将输出层的神经元分层,减少了softmax计算的时间复杂度。
总之,word2vec模型的提出为自然语言处理领域的词向量表示提供了一种新的思路,为后续的研究提供了重要的基础。
原文地址: https://www.cveoy.top/t/topic/bCHM 著作权归作者所有。请勿转载和采集!