数据增广和微调

数据增广

增加一个已有的数据集，使得由更多的多样性

在语言里面加入各种不同的白噪音
改变图片的颜色和形状

测试的时候一般不会做增强，增加的方式包括但不限于翻转，切割（需要变回之前的形状），色调，高斯模糊等等

最重要现实中回出现这样的情况（比如光线亮度）

最终是为了更好的泛化性能。数据增广还是可以叠加比如先旋转再修改亮度

增广能有效避免过拟合，甚至可以让训练比测试精度高

图片多并不一定代表多样性好，所以即使原始样本足够多，可能也需要做增广。

微调

标注一个数据集是非常珍贵的。

一个神经网络一般可以分成俩快，抽取原始像素变成容易线性分割的特征。线性分类器来做分类器。

可以简单理解为分类任务中，除了softmax，其他的层都是在做特征提取。

正常训练

是一个目标数据集上正常训练任务，相比之下，使用更强的正则化，更小的学习率，更少的数据迭代

源数据原复杂于目标数据。通常微调效果更好。

重用分类器权重：源数据集可能也有目标数据集的标号，可以使用训好模型分类器中对标号的内量来做初始化。

固定一些层：神经网络通常有层次特征的表示

低层次的特征更加通用
高层次的特征更数据集相关

可以固定底部一些层的参数，不参与更新：更强的正则（模型的复杂度也变小了）

预训练模型质量很重要，微调通常速度更快精度更高

import os
import torch
import torchvision
from torch import nn
from d2l import torch as d2l

# 热狗数据集，正就是热狗，反就不是
d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip',
                          'fba480ffa8aa7e0febbb511d181409f899b9baa5')
data_dir = d2l.download_extract('hotdog')
train_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'))
test_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'test'))
# 图像大小纵横比都是不一样的
hotdogs = [train_imgs[i][0] for i in range(8)]
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4);

# 使用RGB通道的均值和标准差，以标准化每个通道
# 原模型也使用了
normalize = torchvision.transforms.Normalize(
    [0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

train_augs = torchvision.transforms.Compose([
    torchvision.transforms.RandomResizedCrop(224),
    torchvision.transforms.RandomHorizontalFlip(),
    torchvision.transforms.ToTensor(),
    normalize])

test_augs = torchvision.transforms.Compose([
    torchvision.transforms.Resize([256, 256]),
    torchvision.transforms.CenterCrop(224),
    torchvision.transforms.ToTensor(),
    normalize])

finetune_net = torchvision.models.resnet18(pretrained=True)
# 将最后一层随机初始化为一个线性层，这里的fc是一个输出层
# 这里的操作是输入层和原层一样，输出层是2
finetune_net.fc = nn.Linear(finetune_net.fc.in_features, 2)
# 对最后一层的权重做随机初始化
nn.init.xavier_uniform_(finetune_net.fc.weight)


# 如果param_group=True，输出层中的模型参数将使用十倍的学习率，这里的net是下载下来的resnet网络
def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5, param_group=True):
    train_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
        os.path.join(data_dir, 'train'), transform=train_augs),
        batch_size=batch_size, shuffle=True)
    test_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
        os.path.join(data_dir, 'test'), transform=test_augs),
        batch_size=batch_size)
    devices = d2l.try_all_gpus()
    loss = nn.CrossEntropyLoss(reduction="none")
    if param_group:
        # 把不是最后一层的层都拿出来
        params_1x = [param for name, param in net.named_parameters() if name not in ["fc.weight", "fc.bias"]]
        trainer = torch.optim.SGD([{'params': params_1x},
                                   # 最后一层需要用到10倍的学习率，让最后一层学的更快
                                   {'params': net.fc.parameters(), 'lr': learning_rate * 10}]
                                  , lr=learning_rate, weight_decay=0.001)
    else:
        trainer = torch.optim.SGD(net.parameters(), lr=learning_rate,
                                  weight_decay=0.001)
    d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
                   devices)


train_fine_tuning(finetune_net, 5e-5)

如果图片类型差距过大可能效果会不好

数据增广和微调