独热编码:概念、优势、局限及维数灾难
独热编码(One-hot Encoding)是将词转换为一个高维稀疏向量的编码方式。词表中该词出现的位置记为1,其余位置均记为0。例如,短文本'我爱中国'的独热编码分别为[100][010][001]。
虽然这种编码方式便于计算,但由于词与词之间彼此独立,缺乏上下文关联,会丢失文本的语义及词序信息。另外,如果单词数量太多,特别是短文本,容易引发'维数灾难'。
原文地址: https://www.cveoy.top/t/topic/lgS9 著作权归作者所有。请勿转载和采集!