翻译:We put forward a framework to achieve this work the details of which are shown in Figure 1 As the figure shows our architecture consists of a feature extractor b segment decoder and c multi-head fe
我们提出了一个框架来实现这项工作,具体细节如图1所示。正如图中所示,我们的架构包括(a)特征提取器,(b)分割解码器和(c)多头特征融合检测器。 由于YOLOv7 [3]的出色表现,特征提取器包含一些由ELAN [34]结构连接的卷积操作和一些最大池化操作。ELAN可以控制最短和最长的梯度路径,以便学习来自不同层的更多特征。最大池化增加了模型的感知场,同时保持了空间特征的不变性。 受YOLO v3 [35]的启发,多头特征融合检测器使用FPN [8]和PAN [36]聚合特征,同时使用多个预测头来处理不同大小的对象。此外,我们设计了一个小对象关注模块来解决小对象低检测精度的问题,将在第3.2节中解释。 在分割解码器中,我们使用来自U-Net [27]的解码器思想。我们使用上采样操作和卷积模块将提取的信息恢复到分割地图中。这些卷积模块结合了CSP-Net [37]和RepVgg [38]。在这个过程中,我们还使用了CBAM进行特征权重重新分配,设计的细节在第3.4节中描述。
原文地址: https://www.cveoy.top/t/topic/bMmG 著作权归作者所有。请勿转载和采集!