人工智能安全基础复习用:可解释性
一、可解释性的核心作用
1. 错误检测与模型改进
- 发现模型的异常行为(如过拟合、偏见),优化性能。
- 例:医疗模型中,可解释性帮助识别误诊原因。
2. 安全与可信性
- 关键领域(医疗、军事)需透明决策,确保模型可靠。
3. 数据偏见修正
数据驱动的模型易学习虚假关联(如性别/种族偏见),可解释性揭示这些偏见。
二、可解释性方法分类
1. 局部解释(针对单个样本)
LIME(Local Interpretable Model-agnostic Explanations)
步骤:
对输入样本生成扰动数据(如修改图像像素或文本单词)。
用原模型预测扰动数据,记录结果。
训练一个简单模型(如线性回归)拟合扰动数据的预测结果,权重即特征重要性。
优点:模型无关、易于理解。
缺点:
邻域范围难确定,解释可能不稳定。
忽略特征相关性(如“年龄”和“工作经验”可能被独立扰动)。
显著图(Saliency Maps)
计算模型输出对输入像素/单词的梯度,高梯度区域即重要特征。
适用场景:图像分类(突出关键像素)、文本分类(重要单词)。
沙普利值(Shapley Value)
基于博弈论,计算每个特征对预测的边际贡献。
缺点:计算量大(需遍历所有特征子组合),仅适用于小模型。
2. 全局解释(整体模型行为)
探针(Probing)
在模型中间层插入简单分类器(如线性层),探查该层是否编码特定信息(如词性、句法)。
任务示例:
词级别:词性标注、语义相似度。
句子级别:句子长度、语序、时态。
注意力机制(Attention)
通过权重显示模型关注的部分(如Transformer中的单词重要性)。
公式:
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V局限:注意力权重≠重要性,可能被模型误导。
3. 业务场景应用(如风控)
图算法解释
解释点(用户)、边(交易关系)、子图(黑产团伙)的重要性。
序列行为解释
方法1:为每个行为分配重要性分数(如LIME用于用户行为序列)。
方法2:直接预测关键子序列(如“连续深夜转账”解释欺诈风险)。
4. 文本/图像高级解释
Extractive Rationale:抽取关键片段(如从评论中提取“服务差”作为负面原因)。
Concept-based:关联抽象概念(如“口味”“环境”对餐厅评分的影响)。
Hierarchical:分层打分(如句子中的正向/负向短语)。
三、关键对比与易错点
方法 | 适用场景 | 优点 | 缺点 |
---|---|---|---|
LIME | 局部解释、任意模型 | 简单直观 | 邻域敏感、忽略特征相关性 |
沙普利值 | 小模型、精确贡献 | 理论严谨 | 计算复杂度高 |
显著图 | 图像/文本 | 快速可视化 | 梯度可能不反映真实重要性 |
探针 | 模型内部表示分析 | 揭示隐藏信息 | 需设计辅助任务 |