多模态实体对齐模型研究现状及未来方向
一些研究者已在多模态实体对齐领域提出了一些较为有效的模型,如中国科学技术大学的Chen等人于2020年提出的MMEA[51]模型分别建模不同模态的实体属性并进行知识融合,从而达到对多模态实体建模与对齐的效果。中国科学技术大学于2022年提出的MSNEA[52]模型同样分别提取实体的视觉、关系和属性特征,并基于模态增强机制来整合视觉特征并指导多模态特征学习,以自适应地分配注意力权重以捕捉有价值的属性进行对齐。中国东南大学的Lin等人于2022年提出的MCLEA[53]模型在分别获取各模态属性特征后,基于对比学习联合建模模态内和模态间相互作用,以提高模型的表示能力。
但上述模型对各模态输入数据未进行深度地挖掘,仅是利用经过预训练的各模态编码器直接进行编码,以至于对数据信息挖掘能力不足,仍有一定上升空间。如针对指代现实中同一个电影实体,其在不同图谱中的描述图像可能是不同的海报,而直接使用视觉模型对其进行编码可能相似度较低,但海报里理应存在相似的文本,如电影名称口号等等,若能针对其中的文本信息进行提取以作为实体图像信息的补充,则可以进一步提高对齐准确性。
原文地址: https://www.cveoy.top/t/topic/mX5U 著作权归作者所有。请勿转载和采集!