MindSpore 实战:人脸识别 - 使用 ResNet 模型进行分类
这个错误可能是因为输入的张量维度不正确导致的,需要检查代码中的输入张量维度是否正确。另外,可以尝试使用mindspore的内置函数进行图像处理和数据增强,避免出现维度不匹配的问题。具体可以参考mindspore官方文档中的图像处理和数据增强部分。
import cv2
import numpy as np
import mindspore
from mindspore import Tensor, load_checkpoint, load_param_into_net
from mindspore.dataset.vision import py_transforms
from mindspore.dataset.transforms.py_transforms import Compose
from PIL import Image
from main import ResNet, BasicBlock
# 加载模型
network = ResNet(BasicBlock, [2, 2, 2, 2], num_classes=100)
model_path = 'D:/pythonProject7/ckpt/checkpoint_resnet_6-10_25.ckpt'
params = load_checkpoint(model_path)
load_param_into_net(network, params)
# 加载标签
with open('label.txt') as f:
labels = f.readlines()
labels = [l.strip() for l in labels]
# 加载人脸检测器
face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')
# 打开摄像头
cap = cv2.VideoCapture(0)
while True:
# 读取视频帧
ret, frame = cap.read()
# 转换通道数
if len(frame.shape) == 2:
frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)
elif frame.shape[2] == 4:
frame = cv2.cvtColor(frame, cv2.COLOR_BGRA2BGR)
if frame.shape[2] == 1:
frame = cv2.cvtColor(frame, cv2.COLOR_GRAY2BGR)
# 转换为灰度图像
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
# 检测人脸
faces = face_cascade.detectMultiScale(gray, 1.3, 5)
for (x, y, w, h) in faces:
# 提取人脸图像
face = frame[y:y + h, x:x + w]
face = cv2.resize(face, (224, 224)).astype(np.float32)
face = cv2.cvtColor(face, cv2.COLOR_BGR2RGB)
# 转换为Tensor类型,并进行归一化
transform = Compose([
py_transforms.ToTensor(),
py_transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
face = transform(face)
# 转换为Tensor类型,并增加一个维度
face = Tensor(face)
face = mindspore.ops.ExpandDims()(face, 0)
# 预测人脸所属的类别
output = network(face)
prediction = np.argmax(output.asnumpy())
# 在图像上标注人脸和类别
cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv2.putText(frame, labels[prediction], (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 0, 255), 2)
# 显示图像
cv2.imshow('frame',frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
# 释放摄像头并关闭窗口
cap.release()
cv2.destroyAllWindows()
解决方法
出现 ValueError: mindspore\core\utils\check_convert_utils.cc:367 CheckInteger] The primitive[Conv2D]'s x shape size must be equal to 4, but got 5. 错误,说明 ResNet 模型的 Conv2D 层期望输入的张量维度为 4,但实际输入的张量维度为 5。
原因分析
- ResNet 模型的输入张量通常是 [batch_size, channels, height, width] 的格式,例如 [1, 3, 224, 224]。
- 由于
mindspore.ops.ExpandDims()(face, 0)在输入张量face的第一个维度增加了一个维度,导致输入张量face的维度变为 [1, 1, 3, 224, 224],不符合 Conv2D 层的期望输入维度。
解决方案
将 mindspore.ops.ExpandDims()(face, 0) 改为 mindspore.ops.ExpandDims()(face, 1),在第二个维度增加一个维度,使其与 ResNet 模型的输入维度一致。
# ...
# 转换为Tensor类型,并增加一个维度
face = Tensor(face)
# 将 ExpandDims 操作改为在第二个维度增加维度
face = mindspore.ops.ExpandDims()(face, 1)
# 预测人脸所属的类别
output = network(face)
# ...
其他优化建议
- 使用 MindSpore 的内置数据增强函数,例如
mindspore.dataset.vision.py_transforms.RandomHorizontalFlip、mindspore.dataset.vision.py_transforms.RandomCrop等,可以提高模型的鲁棒性和泛化能力。 - 使用 GPU 进行训练和推理,可以显著提升模型的性能。
- 优化人脸检测算法,可以使用更先进的人脸检测器,例如 MTCNN。
- 使用更复杂的 ResNet 变体,例如 ResNet-50 或 ResNet-101,可以提高模型的精度。
原文地址: https://www.cveoy.top/t/topic/jqkD 著作权归作者所有。请勿转载和采集!