人脸识别模型训练与未知人脸处理 - 基于ResNet网络 - 常规

人脸识别模型训练与未知人脸处理 - 基于ResNet网络

本文将介绍基于ResNet网络的人脸识别模型的训练过程，并探讨如何处理未知人脸。

模型训练

def train_resnet():
    context.set_context(mode=context.GRAPH_MODE, device_target='CPU')
    train_dataset_generator = TrainDatasetGenerator('D:/pythonproject2/digital_mindspore/dataset')
    ds_train = ds.GeneratorDataset(train_dataset_generator, ['data', 'label'], shuffle=True)
    ds_train = ds_train.shuffle(buffer_size=10)
    ds_train = ds_train.batch(batch_size=4, drop_remainder=True)
    network = load_model_from_ckpt()
    net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')
    net_opt = nn.Momentum(network.trainable_params(), learning_rate=0.001, momentum=0.9)
    #time_cb = TimeMonitor(data_size=ds_train.get_dataset_size())
    #config_ck = CheckpointConfig(save_checkpoint_steps=10,keep_checkpoint_max=10)
    #config_ckpt_path = 'D:/pythonproject2/ckpt/'
    #ckpoint_cb = ModelCheckpoint(prefix='checkpoint_resnet', directory=config_ckpt_path, config=config_ck)

    model = Model(network, net_loss, net_opt, metrics={'Accuracy': Accuracy()})
    #epoch_size = 20
    #print('============== Starting Training =============')
    #model.train(epoch_size, ds_train, callbacks=[time_cb, ckpoint_cb, LossMonitor()])
    face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_alt.xml')  # 加载检测器

    cap = cv2.VideoCapture(0)
    stop = False
    while not stop:
        success, img = cap.read()
        subjects = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
        # 生成图像的副本，这样就能保留原始图像
        img1 = img.copy()
        # 检测人脸
        # 将测试图像转换为灰度图像，因为opencv人脸检测器需要灰度图像
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        # 检测多尺度图像，返回值是一张脸部区域信息的列表（x,y,宽,高）
        rect = face_cascade.detectMultiScale(img, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30), flags=cv2.CASCADE_SCALE_IMAGE)
        # 如果未检测到面部
        if len(rect) == 0:
            txt = 'no face!'
            cv2.putText(img1, txt, (10, 20), cv2.FONT_HERSHEY_COMPLEX, 1, (128, 128, 0), 2)
        if not rect is None:
            for (x, y, w, h) in rect:
                face = img[y:y + w, x:x + h].astype(np.float32)  # 数值转换
                face = cv2.resize(face, (100, 100))
                face = face.transpose().astype(np.float32) / 255.
                face = np.expand_dims(face, axis=0)  # 扩展维度，变成(batch_size, channels, height, width)
                face = Tensor(face)
                cv2.rectangle(img1, (x, y), (x + w, y + h), (0, 255, 0), 2)  # 画出矩形框
                output = network(face)
                predicted_class = np.argmax(output.asnumpy(),axis=1)
                label = subjects[predicted_class[0]]
                cv2.putText(img1, label, (x, y), cv2.FONT_HERSHEY_COMPLEX, 1, (128, 128, 0), 2)
        cv2.imshow('img', img1)
        if (cv2.waitKey(1) & 0xFF == ord('q')):  # 按下q程序结束
                stop = True
                cv2.destroyAllWindows()  # 释放窗口

无人脸识别为unknown的原因和解决方法

模型没有经过足够的训练，或者训练数据集中没有包含未知人脸的样本。
- 可以尝试增加训练数据集的多样性，例如添加更多不同种族、年龄、性别、表情的人脸图像。
- 调整模型结构和参数以提高模型的泛化能力，例如增加网络层数、使用更复杂的激活函数等。
阈值设置不合理。
- 可以根据实际情况调整阈值，通常需要在准确率和召回率之间进行权衡。

未知人脸处理逻辑

在代码中加入对未知人脸的处理逻辑，例如将其标记为unknown或者提示用户添加到人脸库中。

# ...
                output = network(face)
                predicted_class = np.argmax(output.asnumpy(),axis=1)
                confidence = output.asnumpy()[0][predicted_class[0]]  # 获取对应类别的置信度
                threshold = 0.8  # 设置阈值
                if confidence >= threshold:
                    label = subjects[predicted_class[0]]
                else:
                    label = 'unknown'
                cv2.putText(img1, label, (x, y), cv2.FONT_HERSHEY_COMPLEX, 1, (128, 128, 0), 2)
# ...

代码说明

代码中使用output.asnumpy()[0][predicted_class[0]] 获取模型对对应类别的置信度。
设置阈值threshold，如果置信度高于阈值，则识别为已知人脸，否则识别为未知人脸。
阈值的选择需要根据实际情况进行调整，通常需要在准确率和召回率之间进行权衡。

总结

本文介绍了基于ResNet网络的人脸识别模型的训练过程，并探讨了如何处理未知人脸。通过调整模型结构和参数，增加训练数据集的多样性，以及设置合理的阈值，可以提高人脸识别的准确率和召回率。同时，加入对未知人脸的处理逻辑，可以让模型更加实用。