多模态实体对齐模型研究现状及未来方向

一些研究者已在多模态实体对齐领域提出了一些较为有效的模型，如中国科学技术大学的Chen等人于2020年提出的MMEA[51]模型分别建模不同模态的实体属性并进行知识融合，从而达到对多模态实体建模与对齐的效果。中国科学技术大学于2022年提出的MSNEA[52]模型同样分别提取实体的视觉、关系和属性特征，并基于模态增强机制来整合视觉特征并指导多模态特征学习，以自适应地分配注意力权重以捕捉有价值的属性进行对齐。中国东南大学的Lin等人于2022年提出的MCLEA[53]模型在分别获取各模态属性特征后，基于对比学习联合建模模态内和模态间相互作用，以提高模型的表示能力。

但上述模型对各模态输入数据未进行深度地挖掘，仅是利用经过预训练的各模态编码器直接进行编码，以至于对数据信息挖掘能力不足，仍有一定上升空间。如针对指代现实中同一个电影实体，其在不同图谱中的描述图像可能是不同的海报，而直接使用视觉模型对其进行编码可能相似度较低，但海报里理应存在相似的文本，如电影名称口号等等，若能针对其中的文本信息进行提取以作为实体图像信息的补充，则可以进一步提高对齐准确性。