当前位置：首页 > ai >正文

【TMFN】一种基于文本的多模态融合网络，具有多尺度特征提取和无监督对比学习，用于多模态情感分析

ai 2025/8/28 18:27:31

不足1：忽略多尺度特征与情绪复杂性

问题描述：
现有方法使用简单的子模型进行特征提取，未能捕捉多尺度特征（如局部词汇情感、长时音频语调、连续视觉微表情），导致情绪分析的细粒度不足。
对应处理：
多尺度特征提取模块
金字塔结构卷积：采用四种不同大小的卷积核（如1x1, 3x3, 5x5, 7x7），逐层提取模态数据的多尺度特征。
通道注意力机制：通过通道注意力（如SE模块）动态加权不同尺度的特征，增强关键情绪线索（如文本中的情感词、音频中的重音部分）。

不足2：平等对待模态，未发挥文本优势

问题描述：
现有方法对文本、视觉、音频模态一视同仁，未利用文本的语义主导性（如“悲伤”一词直接指示负面情感），导致其他模态噪声干扰文本的有效信息。
对应处理：
文本引导的多模态融合模块
文本门控单元（TGU）：以文本特征为门控信号，筛选视觉/音频中对情感有用的信息（如过滤视觉中与文本无关的背景画面）。
基于文本的通道注意力转换器（TCAT）：在Transformer中嵌入文本通道注意力，使视觉和音频特征与文本语义对齐（如将“高兴”的文本与笑脸视觉特征关联）。

不足3：特征交互不足，融合效果有限

问题描述：
传统融合方法（如拼接、加权平均）难以深度交互跨模态特征，导致情感线索整合不充分（如文本“愤怒”与提高的音频音量未被关联）。
对应处理：
无监督对比学习优化
多尺度-融合特征对比：通过对比损失拉近多尺度特征与融合特征的相似性（如确保“多尺度文本局部情感”与“融合后的全局情感”一致）。
跨模态实例判别：同一样本的多模态特征在隐空间靠近，不同样本远离，增强模态间一致性（如“悲伤”文本与对应低沉的音频/垂头视觉特征聚类）。