PyTorch 自定义数据集数据增强网络训练实战

在 PyTorch 中，我们可以使用 torchvision.transforms 模块来进行数据增强。如果我们有自定义的数据集，可以通过编写自定义的数据集类来使用 transforms。以下是一个例子：

import torch
from torch.utils.data import Dataset
from torchvision import transforms

class CustomDataset(Dataset):
    def __init__(self, data, targets):
        self.data = data
        self.targets = targets
        self.transform = transforms.Compose([
            transforms.RandomHorizontalFlip(),
            transforms.RandomCrop(32, padding=4),
            transforms.ToTensor(),
            transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
        ])
        
    def __getitem__(self, index):
        x = self.data[index]
        y = self.targets[index]
        
        x = self.transform(x)
        
        return x, y
    
    def __len__(self):
        return len(self.data)

在这个例子中，我们定义了一个 CustomDataset，它接受两个参数 data 和 targets，分别表示数据和标签。在初始化函数中，我们定义了一个 transform，它包含了一些常用的数据增强方法，比如随机水平翻转，随机裁剪等。在 __getitem__ 函数中，我们将输入的数据 x 应用 transform，然后返回增强后的数据和标签。在 __len__ 函数中，我们返回数据集的长度。

使用这个 CustomDataset 我们可以将数据集加载到 PyTorch 中，然后使用它来训练模型：

import torch.optim as optim
import torch.nn as nn
from torch.utils.data import DataLoader

# 加载数据集
train_dataset = CustomDataset(train_data, train_targets)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True)

# 定义模型
model = MyModel()

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

# 训练模型
for epoch in range(num_epochs):
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

在这个例子中，我们首先加载了训练集，然后使用 DataLoader 来生成批量数据。我们定义了一个模型 MyModel，这里没有给出具体实现。然后定义了损失函数和优化器，使用 SGD 作为优化器。在训练过程中，我们遍历数据集，逐批计算损失并进行反向传播和参数更新。