【TMFN】一种基于文本的多模态融合网络,具有多尺度特征提取和无监督对比学习,用于多模态情感分析
不足1:忽略多尺度特征与情绪复杂性
- 问题描述:
现有方法使用简单的子模型进行特征提取,未能捕捉多尺度特征(如局部词汇情感、长时音频语调、连续视觉微表情),导致情绪分析的细粒度不足。- 对应处理:
多尺度特征提取模块
- 金字塔结构卷积:采用四种不同大小的卷积核(如1x1, 3x3, 5x5, 7x7),逐层提取模态数据的多尺度特征。
- 通道注意力机制:通过通道注意力(如SE模块)动态加权不同尺度的特征,增强关键情绪线索(如文本中的情感词、音频中的重音部分)。
不足2:平等对待模态,未发挥文本优势
- 问题描述:
现有方法对文本、视觉、音频模态一视同仁,未利用文本的语义主导性(如“悲伤”一词直接指示负面情感),导致其他模态噪声干扰文本的有效信息。- 对应处理:
文本引导的多模态融合模块
- 文本门控单元(TGU):以文本特征为门控信号,筛选视觉/音频中对情感有用的信息(如过滤视觉中与文本无关的背景画面)。
- 基于文本的通道注意力转换器(TCAT):在Transformer中嵌入文本通道注意力,使视觉和音频特征与文本语义对齐(如将“高兴”的文本与笑脸视觉特征关联)。
不足3:特征交互不足,融合效果有限
- 问题描述:
传统融合方法(如拼接、加权平均)难以深度交互跨模态特征,导致情感线索整合不充分(如文本“愤怒”与提高的音频音量未被关联)。- 对应处理:
无监督对比学习优化
- 多尺度-融合特征对比:通过对比损失拉近多尺度特征与融合特征的相似性(如确保“多尺度文本局部情感”与“融合后的全局情感”一致)。
- 跨模态实例判别:同一样本的多模态特征在隐空间靠近,不同样本远离,增强模态间一致性(如“悲伤”文本与对应低沉的音频/垂头视觉特征聚类)。
abstract
多模态情感分析在人机交互中起着至关重要的作用。
目前的方法使用简单的子模型进行特征提取,忽略了多尺度特征和情绪的复杂性。
文本、视觉和音频在MSA中各有其独特的特征,文本由于其丰富的语义通常提供更多的情感线索。然而,目前的方法平等对待模式,而不是最大化文本的优势。
为了解决这些问题,我们提出了一种基于文本的多模态融合网络的多尺度特征提取和无监督对比学习(TMFN)方法。
首先,我们提出了一种创新的金字塔结构多尺度特征提取方法,通过不同大小的卷积核捕获模态数据的多尺