表3.2中的模型根据模态可以分为三类:文本单模态、图像单模态和图文多模态。在文本单模态中,模型仅使用文本数据进行训练和预测;在图像单模态中,模型仅使用图像数据进行训练和预测;在图文多模态中,模型同时使用文本数据和图像数据进行训练和预测。分析上述对比实验结果和模型数据量可得出以下结论:

(1)在文本单模态分类模型中,BERT模型在两个数据集上的ACC指标和Macro F1指标均明显优于RAM模型。在图像单模态分类模型中,ViT模型在两个数据集上的ACC指标和Macro F1指标均明显优于ResNet模型。由此结果可知,在文本单模态和图像单模态中,BERT模型和ViT模型的特征表示能力最佳,分类效果最好。对于图文多模态,由于多模态数据引入了更多信息,可以发现大多数图文多模态分类模型的效果要明显优于文本单模态分类模型和图像单模态分类模型,这符合常识。但是,也可以看到BERT-ViT模型在Twitter-17数据集上的ACC指标相较于BERT模型提升很小。这是因为该模型所采用的向量拼接过于简单,在引入额外信息的同时也带来了大量噪声和干扰。当数据噪声较大且模型无法有效抑制噪声时,就会出现多模态分类模型分类效果较差的情况。

(2)对于同批次数据,图像单模态模型的分类效果明显差于文本单模态模型。经过数据分析可知,Twitter-15和Twitter-17数据集中不同类别的文本数据之间区分度高,导致文本单模态模型分类效果相对较好。但不同类别的图像数据之间区分度低,导致图像单模态模型的分类效果相对较差。除此之外,还可以发现各类模型在Twitter-17数据集上的性能指标要明显差于在Twitter-15数据集上的性能指标。对数据集和错误样例进行统计分析,可以发现Twitter-15和Twitter-17数据集的部分文本数据中包含有与真实标签对立的情感单词。并且Twitter-17数据集出现这种现象的比例更高。模型对于这种数据的判别有更高的概率出现错误。

(3)相较于两种粗粒度多模态分类模型BERT-ViT和mPBERT,本章提出的CBMLNet模型在两个公开数据集的各项指标上均有明显提升。相较于多模态模型的基线模型BERT-ViT,CBMLNet模型在Twitter-15数据集的ACC和Macro F1指标上分别提升了1.93%和1.10%,在Twitter-17数据集的ACC和Macro F1指标上分别提升了2.76%和2.96%。相较于mPBERT模型,CBMLNet模型在Twitter-15和Twitter-17数据集的ACC指标上分别提升了2.29%和1.38%,在Macro F1指标上分别提升了2.40%和1.98%。CBMLNet模型作为一种粗粒度模型,相较于细粒度的多模态分类模型,在仅使用粗粒度文本数据的情况下,具有更少的参数量和计算量。具体模型参数量可见表3.3。可以发现,不管是模型总参数量还是不包含预训练部分的模型参数量,CBMLNet模型都远小于TomBERT模型。CBMLNet模型在Twitter-15数据集上的ACC指标追平了TomBERT模型的最优结果,在Twitter-17数据集上的ACC和Macro F1指标比TomBERT模型的最优结果提升了0.49%和1.06%。这证明了CBMLNet模型可以在更小模型参数量的情况下达到参数量更大的细粒度模型TomBERT的最优结果。

你能帮我检查语法错误或者可能存在的错别字么?并给出修改建议:表3 2中的模型根据模态可以分为三类:文本单模态、图像单模态和图文多模态。在文本单模态中模型仅使用文本数据进行训练和预测;在图像单模态中模型仅使用图像数据进行训练和预测;在图文多模态中模型同时使用文本数据和图像数据进行训练和预测。分析上述对比实验结果和模型数据量可得出以下结论:1在文本单模态分类模型中BERT模型在两个数据集上的ACC指标

原文地址: https://www.cveoy.top/t/topic/bgCF 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录