我们提出了一个框架来实现这项工作,具体细节如图1所示。正如图中所示,我们的架构包括(a)特征提取器,(b)分割解码器和(c)多头特征融合检测器。

由于YOLOv7 [3]的出色表现,特征提取器包含一些由ELAN [34]结构连接的卷积操作和一些最大池化操作。ELAN可以控制最短和最长的梯度路径,以便学习来自不同层的更多特征。最大池化增加了模型的感知场,同时保持了空间特征的不变性。

受YOLO v3 [35]的启发,多头特征融合检测器使用FPN [8]和PAN [36]聚合特征,同时使用多个预测头来处理不同大小的对象。此外,我们设计了一个小对象关注模块来解决小对象低检测精度的问题,将在第3.2节中解释。

在分割解码器中,我们使用来自U-Net [27]的解码器思想。我们使用上采样操作和卷积模块将提取的信息恢复到分割地图中。这些卷积模块结合了CSP-Net [37]和RepVgg [38]。在这个过程中,我们还使用了CBAM进行特征权重重新分配,设计的细节在第3.4节中描述。

基于YOLOv7的多头特征融合检测器架构:用于目标检测和分割的创新框架

原文地址: https://www.cveoy.top/t/topic/nd6F 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录