CNN 模型文本数据 input_shape 设置指南

对于文本数据，CNN 模型的 input_shape 主要取决于文本数据的表示方式。一种常用的文本表示方式是使用词嵌入（Word Embedding）技术将文本转换为向量表示。在这种情况下，input_shape 应该是一个三元组 (sequence_length, embedding_dimension, 1)，其中 sequence_length 表示文本序列的长度，embedding_dimension 表示词嵌入的维度，最后的 1 表示文本数据是单通道的。

例如，如果使用一个长度为 100 的文本序列，每个单词使用 100 维的词嵌入表示，那么 input_shape 应该设置为 (100, 100, 1)。

另一种常见的文本表示方式是使用词袋模型（Bag of Words）将文本转换为向量表示。在这种情况下，input_shape 应该是一个二元组 (sequence_length, vocabulary_size)，其中 sequence_length 表示文本序列的长度，vocabulary_size 表示词汇表的大小。

例如，如果使用一个长度为 100 的文本序列，词汇表大小为 10000，那么 input_shape 应该设置为 (100, 10000)。