PyTorch 中二维数据转换为 LSTM 输入的教程

在 PyTorch 中，可以使用 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 来处理二维数据并将其转换为 LSTM 模型的输入。

首先，需要创建一个继承自 torch.utils.data.Dataset 的自定义数据集类，其中需要重写 __len__ 和 __getitem__ 方法。

import torch
from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        return self.data[index]

接下来，可以使用该数据集类来创建一个数据集对象，并使用 torch.utils.data.DataLoader 将数据集转换为可以迭代的批次。

data = [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
dataset = MyDataset(data)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=2, shuffle=True)

在上述代码中，data 是一个二维数据集，每个子列表表示一个样本。MyDataset 类将 data 作为参数传入，并实现了 __len__ 和 __getitem__ 方法。

然后，使用 torch.utils.data.DataLoader 创建 dataloader 对象，并指定 batch_size 和是否需要随机打乱数据。

接下来，可以将 dataloader 作为迭代器使用，从而逐批次地获取数据。

for batch in dataloader:
    inputs = batch  # 获取一个批次的数据
    # 在这里进行模型的前向传播和后向传播操作

在上述代码中，通过迭代 dataloader 对象，可以逐批次地获取数据，并赋值给 inputs 变量。然后，可以在循环中执行模型的前向传播和后向传播操作。

需要注意的是，LSTM 模型的输入需要是三维的，具体来说是 (batch_size, sequence_length, input_size) 的形状。如果二维数据的每个样本具有相同的长度，可以在自定义数据集类中对数据进行预处理，将其转换为固定长度的序列。如果二维数据的样本长度不同，可以使用 torch.nn.utils.rnn.pad_sequence 函数将不同长度的样本填充到相同的长度。