当前位置：首页 > ops >正文

从深度伪造到深度信任：AI安全的三场攻防战

ops 2025/8/12 15:41:15

前言

当大模型开始“睁眼”看世界，伪造者也开始“闭眼”造世界。

2025 WAIC释放出的信号很明确：没有AI安全底座，就没有产业智能化的高楼。WAIC 把“安全”摆在与“创新”同等重要的位置，形成了“1 份共识框架＋2 份重磅报告＋3 大技术展示＋N 场高端对话”的立体化安全议程。其中合合信息现场展示了“AI 鉴伪”的三组“黑科技”——人脸视频鉴伪、AIGC图像鉴伪、通用篡改检测——为狂奔的多模态AI系上了“安全带”。

从“深度伪造”到“深度信任”：AI安全的时代拐点

门槛断崖：从“会写代码”到“会说话”

2013年制作一条换脸视频需要专业显卡和编程知识，而2025年只需一部手机：开源工具ROOP v3.0内置15种人脸模型，微信小程序"妙颜AI"将操作简化成一句话指令，单次换脸成本已降至0.0067元。这种技术民主化带来便利的同时，也催生了新的安全隐患。

技术对比：

‌2013年‌：8小时训练，200张素材，专业设备
‌2025年‌：10秒完成，零技术门槛，手机即可操作

黑产工具链的“工业化”升级

当技术门槛降低，黑色产业迅速形成完整生态链：

素材库：

暗网“Face100”数据集收录 1.2 亿张高清人脸，按年龄、性别、人种分类；
“DocForge”模板商城提供 3000+ 伪造证件 PSD，支持自动替换头像、姓名、编号。

工具箱：

一键去水印脚本“CleanUp Pro”可对抗 C2PA、TruePic 等 6 种主流水印；
“ReCompress”算法在压缩的同时保留伪造特征，社交平台二次传播后仍“肉眼可信”。

分发链：

Telegram 频道“FakeFactory”日均推送 5000 条伪造视频；
东南亚“内容农场”以 0.03 美元/条的价格接包，24 小时可铺满 TikTok 热门榜。

这种工业化运作使得伪造内容产量两年增长1000倍，而检测技术仅提升4倍效率，形成危险的"剪刀差"。

AI安全的时代拐点2025

技术拐点：Diffusion Transformer 参数量突破 80 B，生成质量首次越过“恐怖谷”；
算力拐点：H100 显卡租赁价跌破 1.2 美元/卡时，伪造成本击穿心理防线；
监管拐点：中美欧同步落地《AI 生成内容标识法》，强制水印反而刺激了“反检测”黑产；
社会拐点：Z 世代对“眼见为实”的信任度首次跌破 50%（皮尤 2025 调查）。

WAIC现场的三场“攻防战”

在 WAIC 2025 现场的合合信息展台，“攻防战”不再只是抽象的技术口号，而是被拆分成三场可触、可看、可实战的硬核演示。

人脸视频：毫秒级“拆面具”

观众在合合信息人脸鉴伪展台体验“真假对决”：其中一个是真人，还有两个是ROOP实时伪造，表情纹路及其相似，肉眼难辨，但AI人脸鉴伪模型能即刻判断真伪，并标出伪造区域。

左侧图为生成的2个“假”人脸，右侧图为“假”人脸被鉴伪模型鉴别为“99%”假

核心挑战：目前市面上合成人脸的技术手段多样而复杂，传统的检测技术在应对新出现的人脸伪造算法时往往“有心无力”。

针对不同的人脸篡改形式，合合信息团队基于大规模数据训练，形成了多层次AI篡改检测方案。

例如，应对人脸图像交换伪造，合合信息AI人脸鉴伪模型能够锚定人眼不可见的高级视觉差异，为每一个像素打上真伪标签并计算伪造像素占比，为图像真伪概率“打分”。此外，合合信息团队还面临形式更多变的伪造情况，例如由伪造算法直接生成的复杂图像。采用了多种神经网络模型，聚焦于图像特征，实现多维度交叉验证真伪，让判断结果更精准。

AIGC图像鉴伪技术：让AI生成的“假名画”显形

随着大模型的持续优化，AIGC图像中可被观察到的“失真细节”正变得越来越少，现场展出的《星空》《向日葵》等名画被大模型二次生成后肉眼难以鉴别真假，而合合信息推出AIGC图像鉴别技术，用大模型分析“看不见”的图像信息，让生成式假图无所遁形。

核心挑战：生成式 AI 能产出高度逼真图像，严重威胁舆论安全和公共信任，且传统方法缺少可解释性和泛化性。

方案：借助 MLLM 的推理能力，通过多角度 Prompt 设计＋融合策略，在复杂数据集上超过传统模型与人类专家

AIGC图像鉴别技术具备鉴别范围广、抗攻击性强等优势，可应对实际场景中复杂、多样的图片信息。在鉴别范围上，合合信息AIGC图像鉴别技术可通过不同角度和不同层级的prompt，分析AI生成图像的视觉特征以及透视关系、光影角度等合理性因素，结合图像频谱信息辅助模型进行判断，实现毫秒级鉴伪，有效识别MidJourney、 Stable Diffusion、StyleGAN和GPT 4O等主流模型AI生成图片，测试样本集鉴定准确率超90%，适用于社交媒体内容治理、商业欺诈鉴定、保险理赔等多个场景。