检测 AI 生成的真实世界模拟视频
大家读完觉得有帮助记得及时关注和点赞!!!
抽象
视频生成技术的蓬勃发展危及了现实世界信息的可信度,并加剧了对 AI 生成的视频检测器的需求。 尽管取得了一些进展,但缺乏高质量的真实数据集阻碍了可信检测器的开发。 在本文中,我们提出了 GenWorld,这是一个用于 AI 生成视频检测的大规模、高质量和真实世界的仿真数据集。 GenWorld 具有以下特点:
(1) 真实世界模拟:GenWorld 专注于复制真实世界场景的视频,由于其真实性和潜在影响力而具有重大影响;
(2) 高质量:GenWorld 采用多种最先进的视频生成模型,提供逼真和高质量的伪造视频;
(3) 跨提示多样性:GenWorld 包括从各种生成器和各种提示模式(例如,文本、图像、视频)生成的视频,为学习更多可推广的法医特征提供了潜力。
我们分析了现有的方法,发现它们无法检测由世界模型(即 Cosmos[3]),揭示了忽略现实世界线索的潜在缺点。 为了解决这个问题,我们提出了一个简单而有效的模型 SpannDetector,以利用多视图一致性作为真实世界 AI 生成视频检测的有力标准。
实验表明,我们的方法取得了卓越的结果,突出了基于物理合理性的可解释 AI 生成视频检测的一个有前途的方向。
我们相信 GenWorld 将推动 AI 生成视频检测领域的发展。 项目页面: https://chen-wl20.github.io/GenWorld

图 1:大多数现有的 AI 生成的视频数据集都包含卡通视频,甚至是 “真实” 数据,缺乏对真实性的明确定义。
本文提出了一个高质量的数据集,仅包括来自真实场景(例如,驾驶、导航、作)的真实视频和生成的视频。
GenWorld 具有三个关键特征:1) 真实世界模拟,2) 高质量,以及 3) 交叉提示多样性,可以作为具有实际意义的 AI 生成视频检测研究的基础。
1介绍
最近,生成模型[7,33,48]凭借其生成多模态数据的强大能力,不断改变世界,支持广泛的下游应用[5,3,47].其中,视频生成模型[48,29,14,3,2]获得了最多的关注,因为视频是捕捉现实世界的最具表现力和信息丰富的方式,有可能成为世界模型的基础[43,23,9]. 尽管提供了极大的便利,但它们引发了对真实世界信息真实性的担忧,凸显了对有效的 AI 生成视频检测器的迫切需求[6,30].
尽管取得了一些进展,但缺乏高质量的真实世界 AI 生成的视频检测数据集极大地限制了用于真实场景的可信检测器的开发。 早期作品[19,44,21]专注于策划用于人脸伪造检测的 Deepfake 检测数据集,但人脸以外的研究仍然有限。 GVF 开创[28],多项努力[4,11,31]已经开始专注于构建通用的 AI 生成的视频检测数据集。 但是,他们优先考虑大规模数据收集,而忽略了生成视频的质量和类型,这些视频通常杂乱无章且质量不一致。 如图 1 右侧所示,大多数现有数据集都由卡通视频组成,即使对于 “真实” 数据也是如此。 这使得对它们进行训练的检测器专注于生成缺陷而不是物理合理性,而随着视频生成质量的快速提高,这一点更为重要。
为了解决这个问题,我们提出了 GenWorld,这是一个大规模的高质量 AI 生成的视频检测数据集,专注于自动驾驶、室内导航和机器人作等真实场景。 如图 1 的左侧所示,GenWorld 具有以下特点:
(1) 真实世界模拟:GenWorld 专注于构建具有类似于真实场景分布的视频数据集,因为生成的与真实世界视频紧密相关的视频具有最深远的影响。
(2) 高质量:通过精心设计快速构建管道和选择最先进的视频生成模型,GenWorld 包含高质量的生成视频数据,具有重要的判别价值。
(3) 交叉提示多样性:GenWorld 包括 10 个不同的生成器,它们将不同的输入模式作为输入,包括文本到视频、图像到视频和视频到视频模型。
他们生成的视频包含不同程度的伪造信息,有助于深入研究不同程度的伪造特征。
我们对最先进的 AI 生成的视频检测器进行全面评估[11,35,20,32]在我们的数据集上。 结果表明,现有方法无法区分高质量的生成视频与最先进的世界模型(例如 Cosmos[3]). 这是因为它们主要专注于检测像素空间中的生成缺陷,但高质量的视频通常表现出高水平的伪造,使其更难检测。 虽然视频生成质量正在迅速且不断提高,但生成物理上合理的视频(例如 3D 一致性、物理定律)仍然具有挑战性。 受此启发,我们使用立体重建模型对视频中的多视图一致性进行了深入分析[39],揭示了生成的视频和真实世界的视频之间的显著差异。 然后,我们提议 SpannDetector 利用多视图一致性先验来检测 AI 生成的视频。 具体来说, SpannDetector 将立体重建模型与时态记忆集成在一起,以更有效地处理视频信息。 此外,我们使用真实性评分器对立体特征进行评分,并对其进行全局平均,以确定视频是否是 AI 生成的。 实验结果表明,SpannDetector 通过考虑 3D 一致性和简单的设计,优于现有方法,强调了将物理合理性纳入 AI 生成的视频检测的潜力。
表 1:GenWorld 数据集中真实视频和生成视频的统计数据。
视频源 | 类型 | 任务 | 时间 | 分辨率 | FPS | 长度 | 训练集 | 测试集 | 总 |
动力学 400[24] | 真正 | - | 17.05 | 224-340 | - | 5-10 秒 | 4800 | 1200 | 6000 |
Nuscenes[10] | - | 19.03 | 900-1600 | 12 | 20 秒 | 680 | 170 | 850 | |
RT-1 系列[8] | - | 22.12 | 256-320 | 10 | 2-3 秒 | 1600 | 400 | 2000 | |
DL3DV-10K 系列[27] | - | 23.12 | 960-540 | 30 | 3-10 秒 | 1600 | 400 | 2000 | |
Opensora-T[48] | 假 | T2V | 24.03 | 512×512 | 8 | 2 秒 | 5236 | 1309 | 6545 |
Opensora-I[48] | I2V (输入2V) | 24.03 | 512×512 | 8 | 2 秒 | 5253 | 1314 | 6567 | |
拿铁[29] | T2V | 24.03 | 512×512 | 8 | 2 秒 | 7880 | 1970 | 9850 | |
塞纳河[14] | I2V (输入2V) | 24.04 | 1024×576 | 8 | 2-4 秒 | 7880 | 1970 | 9850 | |
ZeroScope 系列[2] | T2V | 23.07 | 1024×576 | 8 | 3 秒 | 7880 | 1970 | 9850 | |
Model范围[38] | 假 | T2V | 23.03 | 256×256 | 8 | 4 秒 | 7880 | 1970 | 9850 |
视频工匠[12] | T2V | 24.01 | 1024×576 | 8 | 2 秒 | 7880 | 1970 | 9850 | |
了不起[1] | T2V | 23.10 | 672×384 | 8 | 1 秒 | 7880 | 1970 | 9850 | |
拉维[41] | T2V | 23.09 | 1280×2048 | 8 | 2 秒 | 7880 | 1970 | 9850 | |
宇宙[3] | V2V | 25.01 | 640×1024 | 8 | 1-5 秒 | 5907 | 1477 | 7384 | |
总计数 | - | - | - | - | - | - | 80236 | 20060 | 100296 |
2相关工作
AI 生成的视频数据集。AI 生成的视频因其可能被滥用于电信欺诈和诽谤谣言而引起了严重担忧[45,16,42].由 GAN 强大的面部生成功能驱动[17]和 VAE[25]、以前的 AI 生成的视频数据集,例如 DFDC[15]、FaceForensics++[34]和 DFD[18],主要关注 deepfake 检测。 然而,随着扩散模型的快速发展[22],AI 生成的伪造行为不仅限于面部作[3,12,13,23,38],需要更通用的 AI 生成的视频数据集。GenVideo 视频[11]最初编译了大量真实视频和生成的视频,但数据集缺乏连贯性,真实和虚假视频之间存在显着差异。GenVideoBench 系列[31]通过合并图像到视频模型来构建结构化程度更高的数据集,解决了此问题。然而,这两种方法都忽略了一个基本问题:什么样的视频具有现实意义并真正需要检测?本文重点介绍高质量、有影响力的真实世界视频,并提出了一个高质量的 AI 生成真实世界模拟视频数据集。
AI 生成的内容检测。随着数据集开发的进展,以前的研究[44,21,19]由于缺乏高质量的通用 AI 生成的视频数据集,它主要专注于 Deepfake 视频检测。 斯蒂尔[20]重点介绍如何捕捉伪造视频中的时空不一致,以检测深度伪造。HCIL[21]使用对比学习来捕获真实视频和虚假视频之间的局部和全局时间不一致,从而实现更强大的深度伪造检测。高[44]将视频剪辑转换为预定义的布局,保留时间和空间依赖关系,从而增强 Deepfake 检测的泛化。 但是,它们是为涉及人脸的深度伪造视频量身定制的,某些功能可能无法检测一般的 AI 生成的视频。GenVideo 视频[11]引入了一个即插即用的 Temporal Module DeMamba 用于检测,但它主要用作适用于视频的 Temporal Fusion 模块。 我们对真实世界生成的高质量视频进行深入分析,并将固有的多视图不一致识别为伪造的微妙迹象。 我们引入了 SpannDetector 来利用 3D 一致性来检测一般 AI 生成的视频。
真实世界的视频生成。随着可控生成模型的进步[46]、视频世界模型[40,43,23,5,3]对于真实场景,视频生成因其广泛的下游应用而受到广泛关注。 导航世界模型[5]利用条件扩散转换器 (CDiT) 根据过去的观测和导航作预测未来的导航观测。 潘多拉[43]和 Owl-1[23]采用混合自回归扩散模型对人类活动场景视频实现扎实的长视野推理。宇宙[3]凭借其跨多个场景生成视频的令人印象深刻的能力而脱颖而出。用于生成真实场景视频的视频世界模型的出现进一步引发了人们对视频生成的担忧,因为这些视频很容易欺骗人类并传播错误信息。为此,我们的目标是构建一个高质量的 AI 生成真实场景视频数据集,这将促进未来对 AI 生成视频检测器的研究。
3GenWorld (生成世界)
3.1GenWorld 的动机
尽管存在数据集[31,11]他们收集了大量 AI 生成的视频用于 AI 生成的视频检测器研究,在实践中存在两个基本问题:1) 嘈杂和不连贯的语义内容:当前的数据集包含多种和非结构化视频,包括动漫、游戏片段、漫画风格的视频和其他缺乏具体信息的内容,如图 1 所示.这引发了对数据集相关性的怀疑——这些视频真的具有伪造检测的价值吗?2) 由于缺乏精心设计的提示和最先进的模型,生成的视频质量通常很差,很容易被人类区分。因此,在这些数据集上训练的模型难以检测实际应用中产生的伪造品。
为了解决这个问题,我们的 GenWorld 重新评估了哪些类型的生成视频最有影响力并需要检测的问题。我们认为最关键的检测视频应具备以下特征:1) 真实世界模拟:漫画或抽象内容等视频对现实世界的影响最小。相比之下,那些模拟现实世界场景(例如驾驶场景或人类活动)更有可能影响现实。2) 高质量和逼真:视频看起来越逼真,就越有可能误导人类并影响现实世界。因此,AI 生成的视频检测应优先考虑高质量的生成视频,尤其是具有挑战性的极端情况。
3.2GenWorld 的收集和组织
鉴于上述分析,我们的目标是构建一个高质量的、真实世界的 AI 生成的视频检测数据集。首先,对于真实世界的数据,我们分析真实世界场景和当前的视频生成世界模型[23,3],选择了捕捉人类生活广泛范围的四个关键场景:驾驶、室内和室外导航、隐身智能纵和人类活动,我们将这些场景作为数据集的核心场景。
图 2:GenWorld 的视频生成管道。
对于 AI 生成的视频,我们设计了一个数据生成管道,旨在生成模拟真实场景的视频,如图 2 所示。具体来说,我们首先利用了一个强大的视频理解模型 Video-Llava[26],对所选真实视频的内容进行注释,以便于下游生成。在生成过程中,采用了各种生成方法,包括文本到视频[48,29,2,38,12,1,41]、图像到视频[48,14]和视频到视频[3],因为这些方法以不同的方式模拟真实世界的视频,每种方法都提供不同的分析价值。特别是,text-to-video 方法伪造语义内容,同时仍保留模型的外观首选项。图像到视频方法伪造语义和外观,导致更高级别的视频伪造。此外,视频到视频模型不仅伪造语义和外观,还纵物理定律,展示了最高级别的伪造能力。
表 1 显示了我们的 GenWorld 数据集的统计数据。对于真实世界的视频,我们从 Kinetics-400 中随机选择 10,850 个样品[24]、NuScenes[10]、RT-1[8]和 DL3DV-10K[27].对于 AI 生成的视频,我们使用了 10 种不同的生成模型,包括 Cosmos 等最先进的模型[3]和 OpenSora[48],跨越各种伪造级别,例如文本到视频、图像到视频和视频到视频,总共生成了 89,446 个视频。我们的数据集由 100,296 个视频组成,其中 20% 用于测试,其余用于训练。由于采用了最先进的生成模型和来自真实场景的提示,我们的数据集提供了三个关键优势:多样化的真实世界模拟、高质量的视频内容以及交叉生成器和跨生成方法。这种丰富的成分支持各种组合,从而可以跨多个维度对检测方法进行全面分析。
4SpannDetector 探测器
图 3:我们的 SpannDetector 的管道和动机。
SpannDetector 的设计基于对真实视频和 AI 生成视频中多视图一致性的深入分析。
它将立体重建模型与时态记忆模块集成在一起,以提高一致性检测的效率。真实性评分员评估立体声特征,最终视频真实性是通过对整个视频的分数进行平均来确定的。
在构建数据集时,我们测试了各种检测方法[11,20,35,32]并发现它们的性能不足,尤其是与最新的高质量型号相比[3].这促使我们探索识别 AI 生成的视频的新视角。考虑到视频的时间和多视图性质,我们对多视图一致性进行了深入分析,并将其确定为检测 AI 生成的视频的潜在线索(第 4.2 节)。基于这一见解,我们设计了 SpannDetector,这是一种基于多视图一致性的 AI 生成视频检测器,它展示了有前途的功能,尤其是针对世界模型生成的视觉超逼真视频(第 4.3 节)。我们首先回顾多视图匹配技术(第 4.1 节)。
4.1多视图匹配的初步工作
多视图匹配[39,37]旨在识别表示同一 3D 结构的多个视图中的一组相应点。成功的关键在于存在一个 3D 结构,该结构满足多个视图之间的病态约束,这可以称为多视图一致性。最近,Dust3R[39]在大规模数据上进行训练,展示了快速准确地执行多视图匹配的强大能力。形式上,给定相同 3D 结构的两个视图,我1,我2∈ℝW×H×3中,Dust3R 会在相机坐标系中估计它们的点贴图我1,表示为X1,1,X2,1∈ℝW×H×3以及相应的置信度图C1,1,C2,1.这可以表述为:
哪里F(⋅,⋅)表示 Dust3R 模型,而X1,1,X2,1可用于后续的相机参数估计。
4.2生成视频的多视图一致性
利用强大的 Dust3R,我们分析了生成视频的多视图一致性。具体而言,对于任意两个帧我1和我2在视频中,我们首先使用 Dust3R 获取相应的点图X1,1和X2,1和相应的 camera intrinsicK1.然后我们投影我2拖动到我1使用 Projection 变换P2,1=K1X2,1, 哪里P2,1表示 中点的 2D 投影我1的像素坐标。这允许我们获得投影我2,1从我2自我1.之后,我们计算残差R=|我1−我2,1|,结果如图 3(b) 所示。 图 3 显示,对于真实视频,残差R看起来非常规律,因为 Real Video 本身就保持了多视图的一致性。这允许多视图匹配轻松找到满足视图约束的合理 3D 结构。但是,对于 AI 生成的视频,R不规则且有噪声,表明生成的视频在不同视图之间表现出不一致,导致模型难以找到同时满足所有视图约束的合理 3D 结构。
4.3SpannDetector 的设计
基于上述分析,我们的目标是设计一个 AI 生成的视频检测器,该检测器结合了多视图一致性先验。灵感来自 Spann3R[37],我们将内存模块与 Dust3R 相结合[39]改进对顺序视频数据的检测,如图 3 所示。具体来说,当t-th frame 是输入的,我们使用 Dust3R Encoder 来处理t和t−1帧, 获取特征fet和fet−1.然后,我们使用fet要读取内存信息,请获取fct.然后fet和fct输入到 Dust3R 解码器中,从而产生解码功能fdt.最后,fdt特征由真实性评分器处理以获得st.整个过程可以表示为:
哪里Fenc和F12 月代表冻结的 Dust3R 的 Encoder 和 Decoder,Memory_read 是一个 attention作。fm,kt−1和fm,vt−1是内存参数。 同时,我们使用来自tframe 更新内存信息,如下所示:
获得所有分数特征后{st}t=0T,我们进行全局平均以获得最终的视频分数,该分数表示视频是真的还是假的。
5实验
5.1实现细节
数据。为了对现有方法进行全面评估,我们设计了两个任务并相应地对数据集进行了分区。对于每个模型,20%的生成数据保留为测试集。在评估期间,使用一个模型中的训练集进行训练,而使用其他模型的测试集进行测试。 第一个任务是 Train-Test Evaluation,它模拟了一个真实场景,其中必须识别未知来源的图像。这是一种常见情况,因为我们的生成模型数量有限,并且图像可能来自以前未见过的模型。在本任务中,我们使用来自五个模型 (Opensora-T[48]、Opensora-I[48]、拿铁[29]塞纳河[14]和 ZeroScope[2]) 以及真实数据。然后,我们使用来自其他五个模型 (HotShot 的测试集) 测试模型[1]宇宙[3]、ModelScope[38]、Lavie[41]和 VideoCrafter[12])以及真实数据。 第二个任务,交叉提示评估,测试检测方法在不同级别的伪造中表现如何,而不会过度拟合特定类型的一代。在这个任务中,我们将数据拆分为 T2V、I2V 和 V2V 生成的视频。模型在其中一个数据集上进行训练,然后在其他两个数据集的测试集上进行测试。
表 2:与现有 AI 生成的数据集进行比较。虚假视频检测数据集概述。拟议的 GenWorld 是第一个规模为 100,000 的数据集,其中包含用于生成视频的真实世界模拟。此外,GenWorld 的性能优于其他数据集,因为它融合了跨提示多样性,包括文本到视频、图像到视频和视频到视频生成。这样就可以根据不同的提示及其各自的伪造级别对生成方法进行全面分析。
数据 | 规模 | P/图像 | P/视频 | 语义标签 | 跨源 | 真实世界的模拟。 |
---|---|---|---|---|---|---|
GVD[4] | 11 千米 | × | × | × | × | × |
GVF[28] | 2,8 千米 | √ | × | √ | × | × |
GenVideo 视频[11] | 2271千米 | × | × | × | × | × |
GenVidBench 系列[31] | 143 千米 | √ | × | √ | √ | × |
GenWorld (生成世界) | 100 千米 | √ | √ | √ | √ | √ |
图 4:我们数据集的更多可视化结果。
图 5:时间可视化 我们数据集的结果。
评估指标。与之前的研究一致[11,31],我们使用准确性 (Acc.) 来评估我们方法的有效性,以 AP、F1 和召回率 (R) 作为补充评估指标。对于图像级检测方法,我们将所有帧的预测组合起来,以获得总体结果。请务必注意,在计算 Accuracy 时,我们使用来自生成模型本身的测试数据来评估模型区分该特定模型生成的内容的能力。对于 AP、F1 和 Recall,我们整合了真实的视频测试集,以确保更全面、更准确的评估。
基线。我们选择了最先进的 AI 生成内容检测方法,包括图像[35,32]和视频[20,44,36,11]检测器,并评估其性能。所有模型都在单个 A6000 GPU 上进行训练。
5.2与现有数据集的比较
表 2 将我们的数据集与现有的 AI 生成的视频检测数据集进行了比较。我们强调以下优势:1) 真实世界模拟:我们的真实视频是从涵盖大多数真实世界场景的不同数据集中精心挑选的,并从这些真实视频中衍生出来。 因此,它为开发具有实际适用性的 AI 生成视频检测方法奠定了坚实的基础。2) 跨提示多样性:来自不同提示的生成方法在不同程度上纵了真实视频。文本转视频生成主要模仿真实视频的语义和内容,同时保留外观上的风格偏好。图像到视频生成保留了外观和语义,同时生成了极具欺骗性的视频。此外,视频到视频的生成复制了外观和语义,并模拟了视频的时间演变,使它们在时间上更加真实。我们的 GenWorld 数据集是第一个包含文本到视频、图像到视频和视频到视频生成的数据集,为全面研究这些不同方法的伪造特性铺平了道路。图 4 显示了我们数据集中的示例,展示了其多样性、丰富的内容和高质量。同时,图 5 显示了视频的时间连贯性,突出了随时间推移的平滑运动和逻辑进展。
表 3:与 AI 生成的视频检测准确性 SOTA 的比较
方法 | Det. | 了不起[1] | 宇宙[3] | Model范围[38] | 拉维[41] | 视频工匠[12] | 平均 |
---|---|---|---|---|---|---|---|
F3Net[32] | 图像 | 63.25 | 59.61 | 58.22 | 30.91 | 55.04 | 52.22 |
美国国家公共广播电台[35] | 图像 | 34.21 | 29.57 | 71.83 | 17.06 | 22.79 | 42.17 |
斯蒂尔[20] | 视频 | 33.15 | 27.62 | 29.09 | 51.78 | 53.76 | 44.49 |
高[44] | 视频 | 81.00 | 44.51 | 75.83 | 71.32 | 91.22 | 76.24 |
视频MAE[36] | 视频 | 97.56 | 30.38 | 93.15 | 81.02 | 99.59 | 85.40 |
德曼巴[11] | 视频 | 83.10 | 16.17 | 82.28 | 99.49 | 99.95 | 82.87 |
我们 | 视频 | 96.24 | 72.44 | 86.04 | 95.79 | 99.64 | 89.06 |
表 4:与训练测试评估中 F1 分数 (F1) 和平均精度 (AP) 的 SOTA 的比较。
型 | 吕警长 | 度量 | 了不起[1] | 宇宙[3] | Model范围[38] | 拉维[41] | 视频工匠[12] | 平均 |
---|---|---|---|---|---|---|---|---|
F3Net[32] | 图像 | R | 0.6325 | 0.5961 | 0.5822 | 0.3091 | 0.5574 | 0.3657 |
F1 系列 | 0.5862 | 0.5192 | 0.5525 | 0.3370 | 0.5353 | 0.4904 | ||
美联社 | 0.5878 | 0.4842 | 0.5392 | 0.4176 | 0.5329 | 0.6317 | ||
美国国家公共广播电台[35] | 图像 | R | 0.3421 | 0.2957 | 0.7183 | 0.1706 | 0.2279 | 0.3657 |
F1 系列 | 0.4282 | 0.3613 | 0.7277 | 0.2391 | 0.3072 | 0.4904 | ||
美联社 | 0.5516 | 0.4403 | 0.8100 | 0.4363 | 0.4858 | 0.6317 | ||
斯蒂尔[20] | 视频 | R | 0.3315 | 0.2760 | 0.2909 | 0.5178 | 0.5376 | 0.3657 |
F1 系列 | 0.4000 | 0.3229 | 0.3598 | 0.5617 | 0.5770 | 0.4904 | ||
美联社 | 0.4973 | 0.3978 | 0.5062 | 0.6266 | 0.6431 | 0.6317 | ||
高[44] | 视频 | R | 0.8096 | 0.4452 | 0.7579 | 0.7132 | 0.9122 | 0.7425 |
F1 系列 | 0.8296 | 0.5445 | 0.7978 | 0.7686 | 0.8878 | 0.8378 | ||
美联社 | 0.8865 | 0.6652 | 0.8727 | 0.8288 | 0.9039 | 0.9611 | ||
视频MAE[36] | 视频 | R | 0.9756 | 0.3038 | 0.9315 | 0.8102 | 0.9954 | 0.8296 |
F1 系列 | 0.9732 | 0.4524 | 0.9500 | 0.8808 | 0.9835 | 0.9037 | ||
美联社 | 0.9928 | 0.8116 | 0.9854 | 0.9734 | 0.9944 | 0.9925 | ||
德曼巴[11] | 视频 | R | 0.8310 | 0.1617 | 0.8228 | 0.9949 | 0.9995 | 0.7935 |
F1 系列 | 0.9057 | 0.2771 | 0.9008 | 0.9954 | 0.9977 | 0.8844 | ||
美联社 | 0.9919 | 0.7300 | 0.9944 | 0.9999 | 1.0000 | 0.9988 | ||
我们 | 视频 | R | 0.9624 | 0.7240 | 0.8604 | 0.9579 | 0.9964 | 0.9095 |
F1 系列 | 0.8906 | 0.7281 | 0.8356 | 0.8882 | 0.9077 | 0.9322 | ||
美联社 | 0.9475 | 0.7606 | 0.9062 | 0.9446 | 0.9777 | 0.9560 |
5.3训练测试评估
表 3 显示了不同模型在 Train-Test Evaluation 任务上的性能。可以进行几个关键的观察:
1) 视频级 AI 生成的视频检测器明显优于基于图像的检测器。这主要是因为基于视频的检测器从不同的时间帧捕获时间信息,从而实现更丰富的表示,从而更好地检测伪造。
2) 在视频电平检测器中,DeMamba[11]和 VideoMAE[36]表现出明显优于 STIL 的性能[20]又高[44].这是因为后两者主要用于深度伪造视频检测,而前者旨在捕获更通用的视频特征。这促使我们认识到,对深度伪造检测有效的方法不一定适用于一般的 AI 生成的视频。因此,需要更深入的研究来为通用 AI 生成的视频开发更有效的检测器。
3) 区分不同模型生成的视频的难度各不相同。如图所示,大多数经过训练的模型在 Lavie 上的性能更好[41]和 VideoCrafter[12]测试集,但在 HotShot 上表现更差[1]、ModelScope[38]和 Cosmos[3].这表明后者生成的视频更难检测。此外,值得注意的是,与其他模型相比,Cosmos 生成的视频显示出明显更高的检测难度。这表明基于世界模型的 Cosmos 生成的视频更接近真实世界的镜头。
4) 我们的模型总体上优于其他模型,在检测 Cosmos 生成的视频方面性能显著提高。这是因为,除了考虑时间动态之外,我们的模型还集成了多视图一致性,这使它能够识别看似真实但巧妙地违反物理定律的视频。这凸显了使用物理先验作为检测 AI 生成视频的有前途的方法的潜力。
表 4 提供了召回率 (R)、F1 分数和平均精度 (AP),以便进行更详细的比较。从表中可以观察到,我们的模型在召回率 (R) 方面明显优于其他模型,同时保持较高的 AP,从而获得最高的 F1 分数。其他模型(例如 DeMamba)表现出相对较低的召回率 (R),尤其是在 Cosmos 生成的视频上进行测试时。这进一步强调了检测 Cosmos 的挑战,因为它会产生高度逼真的真实世界模拟,很难与真实视频区分开来。
5.4交叉提示评估
表 5:我们的交叉提示评估结果。
方法 | M 世代 | T2V | I2V (输入2V) | V2V | 平均 |
---|---|---|---|---|---|
德曼巴[11] | T2V | 98.41 | 9.35 | 0.61 | 75.90 |
I2V (输入2V) | 30.33 | 100 | 0.27 | 46.95 | |
V2V | 53.54 | 4.93 | 100 | 47.27 | |
我们 | T2V | 99.05 | 51.66 | 52.37 | 86.09 |
I2V (输入2V) | 52.47 | 98.60 | 50.34 | 64.38 | |
V2V | 59.89 | 28.71 | 96.35 | 60.21 |
我们还选择了代表性模型 DeMamba 进行交叉提示评估,结果如表 5 所示。从表中可以看出,DeMamba 往往会过度拟合训练数据,并且无法区分生成的数据与其他两个提示。这表明不同的生成提示会产生不同的伪影模式,导致模型只学习那些特定的特征,而不是可推广的特征。此外,DeMamba 在所有三个交叉提示数据上进行训练时表现出过拟合,这表明该模型不太适合学习一般的伪造检测特征。相比之下,我们的模型在对一个提示生成的数据进行训练后,对其他提示生成的数据表现出一定程度的区分能力。这表明我们的模型可能已经捕获了更多可泛化的特征,例如多视图不一致。
5.5用户研究
为了直观地比较不同数据集的质量和重要性,我们还进行了一项用户研究,以评估现有数据集和我们自己的数据集。评估指标包括视频质量 (VQ)、真实世界模拟 (RS)、运动相干性 (MC) 和物理合理性 (PP)。我们选择了来自不同年龄组的 120 名参与者,并从每个数据集中随机选择了 100 个视频供他们使用 7 点李克特量表进行评估。此外,每个参与者都被要求猜测每个视频是真实视频还是 AI 生成的视频。实验结果如表 6 所示。实验结果表明,我们的数据集在所有质量指标上都优于其他两个数据集。此外,在我们的数据集中,用户确定视频是真实的还是 AI 生成的准确率最低,这凸显了生成的视频最具欺骗性。 这使得我们的数据集对于 AI 生成的视频检测研究特别有价值。
表 6:用户对数据集质量的研究。
数据 | GenVideo 视频[11] | GenVidBench 系列[31] | 我们 |
---|---|---|---|
VQ 预约 | 5.4 | 5.9 | 6.3 |
RS 系列 | 3.2 | 4.4 | 6.4 |
司仪 | 5.2 | 5.8 | 6.2 |
聚丙烯 | 5.1 | 5.3 | 6.4 |
Acc. | 100% | 98.6% | 89.4% |
6结论
在本文中,我们介绍了 GenWorld,这是一个高质量的数据集,用于检测模拟真实场景的 AI 生成的视频。GenWorld 的特点是三个关键方面:
1) 真实世界模拟:它专注于与真实世界活动密切相关的视频,可能对社会事件产生更大的影响。
2) 高质量:通过利用多种最先进的生成方法,GenWorld 包含大量高质量的 AI 生成视频。
3) 跨提示多样性:它包括从各种提示(文本、图像和视频)生成的视频,这些视频捕捉了不同程度的伪造特征。我们使用 GenWorld 对现有的高级 AI 生成的视频检测器进行了深入评估,发现它们难以检测由世界模型(例如 Cosmos[3]). 这种限制可能源于他们未能捕捉到现实世界的物理一致性。为了解决这个问题,我们提出了 SpannDetector,这是一种简单而有效的方法,建立在对真实视频和生成视频之间的 3D 一致性的深入分析之上。SpannDetector 将立体重建模型与时态记忆模块集成在一起,显著提高了检测性能,尤其是在世界模型生成的视频上,这凸显了利用物理一致性进行 AI 生成视频检测的潜力。