本文旨在验证基于 Transformer 的视觉定位任务框架 TransVG 的可行性,并进行可视化呈现。目前,视觉定位任务的方法主要分为两类,即两阶段方法和单阶段方法。这两种方法在查询推理和多模态融合任务中都依赖人为设计的复杂模块。然而,模型设计中存在图像场景图和查询分解等机制,容易导致过拟合,并且无法充分交互图像视觉和语言文本。因此,本文借鉴 transformer 在视觉任务中的成功应用,使用堆叠的 transformer 编码层替代原复杂融合模块,以进行多模态对应任务,从而简化模型设计,同时实现图像视觉和语言文本的充分交互。与之前的研究不同的是,TransVG将视觉定位任务转化为定位框坐标的回归问题。实验结果表明,TransVG在四个主流数据集上具有更高效的性能,并进行了可视化工作。

TransVG: 基于 Transformer 的视觉定位任务框架及其可视化

原文地址: https://www.cveoy.top/t/topic/ogtE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录