视觉定位任务(visual grounding)是指对自然语言表达描述的对象在图像中进行框选,涉及到计算机视觉和自然语言处理两个模态。目前已有的方法可以分为两阶段方法和单阶段方法。两阶段方法先得到图像中的候选区域,再根据与查询的相似程度对这些区域进行排序得到最佳区域作为输出框;单阶段方法则直接在图像的目标检测层面融合视觉-文本特征,输出最有可能框选物体的区域。多模态的融合和推理是视觉定位的核心问题。以往的方法虽然在多模态融合模块方面进行了改进,但这些复杂的模块会使模型过度拟合到数据集的特定情况,并限制视觉和语言之间信息的充分交互。为解决这些问题,TransVG提出了一种新的思路,引入transformer框架完成视觉定位任务,用一组堆叠的transformer编码器层取代之前的结构化融合模块,直接输出4维坐标框选对象。本文在四个广泛使用的数据集上测试了TransVG的性能,并与其他先进方法结果进行比较,验证了其可行性。

这是我论文背景介绍中的几段话帮我用中文使语句更加专业化一些:视觉定位任务visual grounding也被定义为短语定位phrase localiza- tion1-2 指称表达理解referring expression comprehension3-4 和自然语言物体检索natural language object retrieval5-6 旨在图像上框选出自然语言表达描述的对象涉及到了计

原文地址: https://www.cveoy.top/t/topic/fr2q 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录