使用 MindSpore 进行实时人脸识别 - 错误排查和解决 - 常规

使用 MindSpore 进行实时人脸识别 - 错误排查和解决

本文将展示使用 MindSpore 进行实时人脸识别的代码示例，并针对代码运行过程中出现的错误进行分析和解决。

代码示例

import cv2
import numpy as np
import mindspore
from mindspore import Tensor, load_checkpoint, load_param_into_net
from mindspore.dataset.vision import py_transforms
from mindspore.dataset.transforms.py_transforms import Compose
from PIL import Image
from main import ResNet, BasicBlock

# 加载模型
network = ResNet(BasicBlock, [2, 2, 2, 2], num_classes=100)
model_path = 'D:/pythonProject7/ckpt/checkpoint_resnet_6-10_25.ckpt'
params = load_checkpoint(model_path)
load_param_into_net(network, params)

# 加载标签
with open('label.txt') as f:
    labels = f.readlines()
labels = [l.strip() for l in labels]

# 加载人脸检测器
face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

# 打开摄像头
cap = cv2.VideoCapture(0)

while True:
    # 读取视频帧
    ret, frame = cap.read()

    # 转换通道数
    if len(frame.shape) == 2:
        frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)
    elif frame.shape[2] == 4:
        frame = cv2.cvtColor(frame, cv2.COLOR_BGRA2BGR)
    if frame.shape[2] == 1:
        frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)

    # 转换为灰度图像
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 检测人脸
    faces = face_cascade.detectMultiScale(gray, 1.3, 5)

    for (x, y, w, h) in faces:
        # 提取人脸图像
        face = frame[y:y + h, x:x + w]
        face = cv2.resize(face, (224, 224)).astype(np.float32)
        face = cv2.cvtColor(face, cv2.COLOR_BGR2RGB)

        # 转换为Tensor类型，并进行归一化
        transform = Compose([
            py_transforms.ToTensor(),
            py_transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        ])
        face = transform(face)

        # 转换为Tensor类型，并增加一个维度
        face = Tensor(face)
        face = mindspore.ops.ExpandDims()(face, 0)

        # 预测人脸所属的类别
        output = network(face)
        prediction = np.argmax(output.asnumpy())

        # 在图像上标注人脸和类别
        cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 0, 255), 2)
        cv2.putText(frame, labels[prediction], (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 0, 255), 2)

    # 显示图像
    cv2.imshow('frame', frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 释放摄像头并关闭窗口
cap.release()
cv2.destroyAllWindows()

错误排查

在运行上述代码时，可能会遇到以下错误：

ValueError: mindspore\core\utils\check_convert_utils.cc:367 CheckInteger] The primitive[Conv2D]'s x shape size must be equal to 4, but got 5.

这个错误提示是因为 MindSpore 中的 Conv2D 操作要求输入的张量 shape 必须是四维的，而你的输入张量 shape 是五维的。

错误解决

导致这个问题的原因可能是你在使用 mindspore.ops.ExpandDims() 增加维度时，多加了一维。你需要确保在增加维度时只增加一维，或者在输入张量的 shape 中去掉一维，使其变为四维。

例如，将代码中 face = mindspore.ops.ExpandDims()(face, 0) 改为 face = mindspore.ops.ExpandDims()(face, 1) 就可以解决这个问题。

代码修正

import cv2
import numpy as np
import mindspore
from mindspore import Tensor, load_checkpoint, load_param_into_net
from mindspore.dataset.vision import py_transforms
from mindspore.dataset.transforms.py_transforms import Compose
from PIL import Image
from main import ResNet, BasicBlock

# 加载模型
network = ResNet(BasicBlock, [2, 2, 2, 2], num_classes=100)
model_path = 'D:/pythonProject7/ckpt/checkpoint_resnet_6-10_25.ckpt'
params = load_checkpoint(model_path)
load_param_into_net(network, params)

# 加载标签
with open('label.txt') as f:
    labels = f.readlines()
labels = [l.strip() for l in labels]

# 加载人脸检测器
face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

# 打开摄像头
cap = cv2.VideoCapture(0)

while True:
    # 读取视频帧
    ret, frame = cap.read()

    # 转换通道数
    if len(frame.shape) == 2:
        frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)
    elif frame.shape[2] == 4:
        frame = cv2.cvtColor(frame, cv2.COLOR_BGRA2BGR)
    if frame.shape[2] == 1:
        frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)

    # 转换为灰度图像
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 检测人脸
    faces = face_cascade.detectMultiScale(gray, 1.3, 5)

    for (x, y, w, h) in faces:
        # 提取人脸图像
        face = frame[y:y + h, x:x + w]
        face = cv2.resize(face, (224, 224)).astype(np.float32)
        face = cv2.cvtColor(face, cv2.COLOR_BGR2RGB)

        # 转换为Tensor类型，并进行归一化
        transform = Compose([
            py_transforms.ToTensor(),
            py_transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        ])
        face = transform(face)

        # 转换为Tensor类型，并增加一个维度
        face = Tensor(face)
        face = mindspore.ops.ExpandDims()(face, 1)  # 将维度增加到第 1 维

        # 预测人脸所属的类别
        output = network(face)
        prediction = np.argmax(output.asnumpy())

        # 在图像上标注人脸和类别
        cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 0, 255), 2)
        cv2.putText(frame, labels[prediction], (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 0, 255), 2)

    # 显示图像
    cv2.imshow('frame', frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 释放摄像头并关闭窗口
cap.release()
cv2.destroyAllWindows()

通过以上修改，你就可以成功解决 Conv2D 操作的输入张量 shape 不匹配的问题，并使用 MindSpore 进行实时人脸识别了。

希望本文对你有帮助！