基于注意力机制的RNN文本分类模型

"import copy\nimport torch\nfrom torch import nn\nfrom torch import optim\nimport torchtext\nfrom torchtext import data\nfrom torchtext import datasets\n\nTEXT = data.Field(sequential=True, batch_first=True, lower=True)\nLABEL = data.LabelField()\n\n# load data splits\ntrain_data, val_data, test_data = datasets.SST.splits(TEXT, LABEL)\n\n# build dictionary\nTEXT.build_vocab(train_data,vectors = "glove.840B.300d",unk_init = torch.Tensor.norm)\n#TEXT.build_vocab(train_data)\nLABEL.build_vocab(train_data)\n# hyperparameters\nvocab_size = len(TEXT.vocab)\nlabel_size = len(LABEL.vocab)\npadding_idx = TEXT.vocab.stoi[""]\nembedding_dim = 300\nhidden_dim = 128\n\n# build iterators\ntrain_iter, val_iter, test_iter = data.BucketIterator.splits(\n (train_data, val_data, test_data), \n batch_size=32)\n# your code here\nuse_cuda = torch.cuda.is_available()\ndevice = torch.device("cuda" if use_cuda else "cpu") \n \n# Training function \ndef train(model, train_loader, optimizer, criterion): \n model.train() \n total_loss = 0.0 \n total_correct = 0 \n for batch in train_loader: \n text, labels = batch.text.to(device), batch.label.to(device) \n optimizer.zero_grad() \n logits, attention_weights = model(text)\n loss = criterion(logits, labels) \n \n loss.backward() \n optimizer.step() \n \n total_loss += loss.item() * text.size(0) \n preds = logits.argmax(dim=1) \n total_correct += (preds == labels).sum().item() \n avg_loss = total_loss / len(train_loader.dataset) \n accuracy = total_correct / len(train_loader.dataset) \n return avg_loss, accuracy \n\ndef evaluate(model, iterator, criterion):\n epoch_loss = 0\n epoch_acc = 0\n\n model.eval()\n\n with torch.no_grad():\n for batch in iterator:\n text, labels = batch.text.to(device), batch.label.to(device) \n predictions, _ = model(text)\n\n loss = criterion(predictions, batch.label)\n acc = accuracy(predictions, batch.label)\n\n epoch_loss += loss.item()\n epoch_acc += acc.item()\n\n return epoch_loss / len(iterator), epoch_acc / len(iterator)\n\n\ndef accuracy(predictions, labels):\n _, predicted_labels = torch.max(predictions, 1)\n correct = (predicted_labels == labels).float()\n accuracy = correct.sum() / len(correct)\n return accuracy\n\nclass Attention(nn.Module):\n def init(self, hidden_dim):\n super(Attention, self).init()\n self.hidden_dim = hidden_dim\n self.attention_weights = nn.Linear(hidden_dim, 1)\n \n def forward(self, lstm_output):\n attention_scores = self.attention_weights(lstm_output).squeeze(2)\n attention_weights = torch.softmax(attention_scores, dim=1)\n attention_output = torch.bmm(lstm_output.transpose(1, 2), attention_weights.unsqueeze(2)).squeeze(2)\n return attention_output, attention_weights\n\nclass RNNClassifier(nn.Module): \n def init(self, vocab_size, embedding_dim, hidden_dim, label_size, padding_idx): \n super(RNNClassifier, self).init() \n self.vocab_size = vocab_size \n self.embedding_dim = embedding_dim \n self.hidden_dim = hidden_dim \n self.label_size = label_size \n self.num_layers = 2\n self.dropout_num = 0.5\n self.bidirectional=True\n \n # Embedding Layer \n self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=padding_idx) \n #self.embedding = nn.Embedding.from_pretrained(pretrained_vectors.vectors, padding_idx=padding_idx) \n self.embedding_dropout = nn.Dropout(self.dropout_num) # add embedding dropout layer \n \n # LSTM Layer \n self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=self.num_layers, batch_first=True, bidirectional=self.bidirectional) \n self.lstm_dropout = nn.Dropout(self.dropout_num) \n \n # Attention Layer\n self.attention = Attention(hidden_dim * (2 if self.bidirectional else 1) if self.bidirectional else hidden_dim)\n \n # Fully Connected Layer \n self.fc = nn.Linear(hidden_dim * (2 if self.bidirectional else 1) if self.bidirectional else hidden_dim, label_size) \n self.fc_dropout = nn.Dropout(self.dropout_num) \n self.softmax = nn.LogSoftmax(dim=1)\n \n def zero_state(self, batch_size): \n hidden = torch.zeros(self.num_layers * (2 if self.bidirectional else 1), batch_size, self.hidden_dim).to(device) \n cell = torch.zeros(self.num_layers * (2 if self.bidirectional else 1), batch_size, self.hidden_dim).to(device) \n return hidden, cell \n \n def forward(self, text): \n emb = self.embedding(text) \n emb = self.embedding_dropout(emb) \n \n h0, c0 = self.zero_state(text.size(0)) \n output, (hn, cn) = self.lstm(emb, (h0, c0))\n output = self.lstm_dropout(output)\n \n attention_output, attention_weights = self.attention(output)\n \n output = self.fc(attention_output) \n output = self.fc_dropout(output) \n \n return output, attention_weights\n\nmodel = RNNClassifier(vocab_size, embedding_dim, hidden_dim, label_size,padding_idx).to(device) \noptimizer = optim.Adam(model.parameters(), lr=0.001) \ncriterion = nn.CrossEntropyLoss()\nnum_epochs = 20\n\ntrain_losses = []\nval_losses = []\ntrain_accs = []\nval_accs = []\n\ndef model_running(model,train_iter, val_iter,optimizer, criterion):\n best_val_acc = 0.0 \n for epoch in range(1,num_epochs+1):\n train_acc = 0.0\n train_loss = 0.0\n val_acc = 0.0\n val_loss = 0.0\n test_acc = 0.0\n test_loss = 0.0\n \n train_loss, train_acc = train(model, train_iter, optimizer, criterion)\n val_loss, val_acc = evaluate(model, val_iter, criterion)\n \n # Print progress\n print("Epoch [{}/{}], Train Loss: {:.4f}, Val Loss: {:.4f}, Train Acc: {:.4f}, Val Acc: {:.4f}"\n .format(epoch, num_epochs, train_loss, val_loss, train_acc, val_acc))\n \n # Save loss and accuracy to list\n train_losses.append(train_loss)\n val_losses.append(val_loss)\n train_accs.append(train_acc)\n val_accs.append(val_acc)\n \n if val_acc > best_val_acc: \n best_val_acc = val_acc \n best_model = model.state_dict() \n \n return best_model\n\nbest_model = model_running(model,train_iter, val_iter,optimizer, criterion)\nmodel.load_state_dict(best_model) \n \ntest_loss, test_acc = evaluate(model, test_iter, criterion) \nprint(f"Test loss: {test_loss:.4f}, Test accuracy: {test_acc:.4f}")\n\n请分析以上模型，是否还有优化空间内容：以上模型中还有一些优化空间可以进一步改进：\n\n1. 使用预训练的词向量：模型中使用了GloVe预训练的词向量，但是在构建词典时使用了默认的unk_init参数，该参数将未知词的向量初始化为一个均匀分布的随机向量。可以尝试使用预训练的词向量来初始化未知词的向量，这样可以提供更好的词向量表示，进一步提升模型性能。\n\n2. 超参数调整：可以尝试调整一些超参数来改善模型的性能，例如学习率、隐藏层维度、嵌入层维度等。\n\n3. 更复杂的模型结构：可以尝试使用更复杂的模型结构来提升模型性能，例如使用更多的LSTM层、增加全连接层的数量和大小等。\n\n4. 正则化和dropout：可以尝试添加正则化项或使用dropout来减少过拟合问题。\n\n5. 优化器选择：可以尝试使用其他优化器，例如SGD、Adagrad等，来进一步优化模型的训练过程。\n\n6. 数据增强：可以尝试使用数据增强技术来增加训练样本的多样性，例如增加数据的噪声、旋转、镜像等操作，从而提升模型的泛化能力。\n\n7. 模型集成：可以尝试使用模型集成的方法，将多个模型的预测结果进行组合，从而提高模型的性能和鲁棒性。\n\n总之，以上是一些可以尝试的优化空间，具体的改进方法需要根据具体情况和实验结果来选择。\n