使用 CNN 处理 TF-IDF 表示的文本数据：input_shape 设置指南

在处理文本数据时，使用 CNN 模型需要将文本表示为数值形式的输入。对于 TF-IDF 表示方法的文本数据，可以将其转换为稀疏矩阵的形式，其中每一行代表一个文本样本，每一列代表一个特征（词汇）。

在 CNN 模型中，input_shape 参数指定输入数据的形状。对于稀疏矩阵表示的文本数据，input_shape 应设为 (None, num_features)，其中 num_features 表示特征的维度，即文本数据中的词汇数量。

以下是一个使用 Keras 库实现 CNN 模型的示例代码，用于处理 TF-IDF 表示的文本数据：

from keras.models import Sequential
from keras.layers import Conv1D, MaxPooling1D, Flatten, Dense

# 定义 CNN 模型
model = Sequential()
model.add(Conv1D(filters=64, kernel_size=3, activation='relu', input_shape=(None, num_features)))
model.add(MaxPooling1D(pool_size=2))
model.add(Flatten())
model.add(Dense(64, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))

# 编译和训练模型
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=10, batch_size=32)

上述代码中，Conv1D 层用于卷积操作，MaxPooling1D 层用于池化操作，Flatten 层用于展平操作，Dense 层用于全连接操作。其中，input_shape 参数指定了输入数据的形状为 (None, num_features)，其中 None 表示样本数量不确定。

注意，在使用 CNN 处理文本数据时，还需要将文本数据转换为固定长度的表示形式，可以使用 padding 或截断等方法。

使用 CNN 处理 TF-IDF 表示的文本数据：input_shape 设置指南