翻译：We put forward a framework to achieve this work the details of which are shown in Figure 1 As the figure shows our architecture consists of a feature extractor b segment decoder and c multi-head fe

我们提出了一个框架来实现这项工作，具体细节如图1所示。正如图中所示，我们的架构包括(a)特征提取器，(b)分割解码器和(c)多头特征融合检测器。由于YOLOv7 [3]的出色表现，特征提取器包含一些由ELAN [34]结构连接的卷积操作和一些最大池化操作。ELAN可以控制最短和最长的梯度路径，以便学习来自不同层的更多特征。最大池化增加了模型的感知场，同时保持了空间特征的不变性。受YOLO v3 [35]的启发，多头特征融合检测器使用FPN [8]和PAN [36]聚合特征，同时使用多个预测头来处理不同大小的对象。此外，我们设计了一个小对象关注模块来解决小对象低检测精度的问题，将在第3.2节中解释。在分割解码器中，我们使用来自U-Net [27]的解码器思想。我们使用上采样操作和卷积模块将提取的信息恢复到分割地图中。这些卷积模块结合了CSP-Net [37]和RepVgg [38]。在这个过程中，我们还使用了CBAM进行特征权重重新分配，设计的细节在第3.4节中描述。