基于MindSpore的ResNet人脸识别模型训练与实时识别

import numpy as np
import mindspore.dataset as ds
import os
import cv2
import mindspore
import mindspore.nn as nn
from mindspore import Tensor, load_checkpoint, load_param_into_net
from mindspore.common.initializer import Normal
from mindspore import context
from mindspore.train.callback import ModelCheckpoint, CheckpointConfig, LossMonitor, TimeMonitor
from mindspore.ops.operations import TensorAdd
from scipy.integrate._ivp.radau import P
from mindspore import Model  # 承载网络结构
from mindspore.nn.metrics import Accuracy  # 测试模型用

np.random.seed(58)


class BasicBlock(nn.Cell):
    def __init__(self, in_channels, out_channels, stride=1, downsample=None):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, pad_mode='pad',has_bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU()
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, pad_mode='pad', has_bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.downsample = downsample
        self.add = TensorAdd()

    def construct(self, x):
        identity = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)

        if self.downsample is not None:
            identity = self.downsample(x)

        out = self.add(out, identity)
        out = self.relu(out)

        return out

class ResNet(nn.Cell):
    def __init__(self, block, layers, num_classes=10):
        super(ResNet, self).__init__()
        self.in_channels = 64

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, pad_mode='pad', has_bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU()
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, pad_mode='same')
        self.layer1 = self.make_layer(block, 64, layers[0])
        self.layer2 = self.make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self.make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self.make_layer(block, 512, layers[3], stride=2)
        self.avgpool = nn.AvgPool2d(kernel_size=7, stride=1, pad_mode='valid')  # 修改这里
        self.flatten = nn.Flatten()
        self.fc = nn.Dense(512, num_classes) # 修改这里

    def make_layer(self, block, out_channels, blocks, stride=1):
        downsample = None
        if stride != 1 or self.in_channels != out_channels:
            downsample = nn.SequentialCell([
                nn.Conv2d(self.in_channels, out_channels, kernel_size=1, stride=stride, has_bias=False),
                nn.BatchNorm2d(out_channels)
            ])

        layers = []
        layers.append(block(self.in_channels, out_channels, stride, downsample))
        self.in_channels = out_channels
        for _ in range(1, blocks):
            layers.append(block(out_channels, out_channels))

        return nn.SequentialCell(layers)

    def construct(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = self.flatten(x)
        x = self.fc(x)

        return x


class TrainDatasetGenerator:
    def __init__(self, file_path):
        self.file_path = file_path
        self.img_names = os.listdir(file_path)

    def __getitem__(self, index):
        data = cv2.imread(os.path.join(self.file_path, self.img_names[index]))
        label = self.img_names[index].split('_')[0]
        label = int(label)
        data = cv2.cvtColor(data, cv2.COLOR_BGR2RGB)
        data = cv2.resize(data, (224, 224))
        data = data.transpose().astype(np.float32) / 255.
        return data, label

    def __len__(self):
        return len(self.img_names)

def load_model_from_ckpt():
    context.set_context(mode=context.GRAPH_MODE, device_target='CPU')
    # 创建ResNet模型
    network = ResNet(BasicBlock,[2,2,2,2])
    # 加载ckpt文件中的模型参数
    param_dict = load_checkpoint('D:/pythonProject7/ckpt/checkpoint_resnet_34-8_25.ckpt')
     #将模型参数加载到模型中
    load_param_into_net(network, param_dict)
    # 将全连接层的输出维度改为512
    network.fc = nn.Dense(512, 100)
    # 返回模型
    return network


def train_resnet():
    context.set_context(mode=context.GRAPH_MODE, device_target='CPU')
    train_dataset_generator = TrainDatasetGenerator('D:/pythonProject7/train1')
    ds_train = ds.GeneratorDataset(train_dataset_generator, ['data', 'label'], shuffle=True)
    ds_train = ds_train.shuffle(buffer_size=10)
    ds_train = ds_train.batch(batch_size=2, drop_remainder=True)
    network = ResNet(BasicBlock, [2, 2, 2, 2], num_classes=100)
    net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')
    net_opt = nn.Momentum(network.trainable_params(), learning_rate=0.001, momentum=0.9)


    model = Model(network, net_loss, net_opt, metrics={'Accuracy': Accuracy()})


    face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_alt.xml')  # 加载检测器
    threshold = 0.95  # 设置阈值

    cap = cv2.VideoCapture(0)
    stop = False
    while not stop:
        success, img = cap.read()
        subjects = ['1', '2', '3', '4', '5', '6', '7', '8', '9','10', 'unknown']
        # 生成图像的副本，这样就能保留原始图像
        img1 = img.copy()
        # 检测人脸
        # 将测试图像转换为灰度图像，因为opencv人脸检测器需要灰度图像
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        # 检测多尺度图像，返回值是一张脸部区域信息的列表（x,y,宽,高）
        rect = face_cascade.detectMultiScale(img, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30), 
                                             flags=cv2.CASCADE_SCALE_IMAGE)
        # 如果未检测到面部
        if len(rect) == 0:
            txt = 'no face!'
            cv2.putText(img1, txt, (10, 20), cv2.FONT_HERSHEY_COMPLEX, 1, (128, 128, 0), 2)
        if not rect is None:
            for (x, y, w, h) in rect:
                face = img[y:y + w, x:x + h].astype(np.float32)  # 数值转换
                face = cv2.resize(face, (100, 100))
                face = face.transpose().astype(np.float32) / 255.
                face = np.expand_dims(face, axis=0)  # 扩展维度，变成(batch_size, channels, height, width)
                face = Tensor(face)
                cv2.rectangle(img1, (x, y), (x + w, y + h), (0, 255, 0), 2)  # 画出矩形框
                output = network(face)
                predicted_class = np.argmax(output.asnumpy(), axis=1)
                if output.asnumpy()[0][predicted_class[0]] < threshold:
                    label = 'unknown'
                else:
                    label = subjects[predicted_class[0]]
                # label = subjects[predicted_class[0]]
                cv2.putText(img1, label, (x, y), cv2.FONT_HERSHEY_COMPLEX, 1, (128, 128, 0), 2)
        cv2.imshow('img', img1)
        if (cv2.waitKey(1) & 0xFF == ord('q')):  # 按下q程序结束
            stop = True
            cv2.destroyAllWindows()  # 释放窗口


if __name__ == '__main__':
    train_resnet()

代码解析：

模型定义：
- BasicBlock：定义ResNet的残差块结构，包含两个卷积层、BN层和ReLU激活函数。
- ResNet：定义ResNet模型，包含卷积层、BN层、ReLU层、最大池化层、多个残差块、平均池化层、扁平化层和全连接层。
数据加载：
- TrainDatasetGenerator：自定义数据集生成器，用于读取图像并进行预处理。
模型训练：
- 使用mindspore.dataset.GeneratorDataset构建训练数据集。
- 使用mindspore.nn.SoftmaxCrossEntropyWithLogits作为损失函数。
- 使用mindspore.nn.Momentum作为优化器。
- 使用mindspore.train.Model创建模型，进行训练。
模型加载与识别：
- 使用load_checkpoint加载训练好的模型参数。
- 使用load_param_into_net将参数加载到模型中。
- 利用摄像头实时采集人脸图像，进行预测识别。
实时识别：
- 使用opencv库检测人脸，并将识别结果显示在图像上。

代码优化：

错误修复：
- 针对代码中出现的错误“ValueError: For 'AvgPool', the each element of the output shape must be larger than 0, but got output shape: [1, 512, -2, -2]. The input shape: [1, 512, 4, 4], kernel size: (1, 1, 7, 7), strides: (1, 1, 1, 1).Please check the official api documents for more information about the output.”，需要检查AvgPool的输入shape是否符合要求。代码中应该是 self.avgpool = nn.AvgPool2d(kernel_size=7, stride=1, pad_mode='valid')，导致 output shape: [1, 512, -2, -2] 的原因是 kernel_size 设置错误，需要将 kernel_size 设置为 (7, 7)。
代码注释：
- 添加代码注释，解释代码逻辑，方便理解和维护。
代码格式：
- 使用规范的代码格式，提高代码可读性。

总结：

本代码演示了使用MindSpore框架训练ResNet模型进行人脸识别，并利用摄像头进行实时识别。通过优化代码，可以实现更稳定、更准确的人脸识别。

注意：

请确保你已经安装了MindSpore框架和opencv库。
请根据实际情况修改代码中的路径和参数。
此代码仅供参考，实际应用中可能需要根据具体场景进行调整。

建议：

使用更大的数据集训练模型，以提高识别精度。
使用GPU进行训练和识别，以加速运算速度。
使用更高级的模型和算法，以提升识别效果。
探索模型部署方案，将模型部署到移动端或其他平台。