GenWorld

Name: GenWorld
Creator: 清华大学自动化系，清华大学电子工程系
Published: 2025-06-13 01:59:33
License: 暂无描述

arXiv2025-06-13 更新2025-06-14 收录

下载链接：

https://chen-wl20.github.io/GenWorld

下载链接

链接失效反馈

官方服务：

资源简介：

GenWorld是一个大规模、高质量的AI生成视频检测数据集，专注于现实场景的视频，包括自动驾驶、室内外导航和机器人操作等。该数据集具有三个关键特点：现实场景模拟、高质量视频和跨提示多样性。数据集包含100,296个视频，其中20%用于测试，其余用于训练。GenWorld旨在为AI生成视频检测研究提供基础，解决现实世界中信息真实性的问题。

GenWorld is a large-scale, high-quality dataset for AI-generated video detection, focusing on videos of real-world scenarios including autonomous driving, indoor and outdoor navigation, robotic manipulation, and more. This dataset has three key characteristics: real-world scenario simulation, high-quality video content, and cross-prompt diversity. The dataset contains 100,296 videos in total, with 20% allocated for testing and the remainder for training. GenWorld aims to provide a foundational resource for AI-generated video detection research, addressing the issue of information authenticity in real-world scenarios.

提供机构：

清华大学自动化系，清华大学电子工程系

创建时间：

2025-06-13

原始信息汇总

GenWorld: 真实世界模拟AI生成视频检测数据集

数据集概述

名称: GenWorld
类型: AI生成视频检测数据集
特点:
- 真实世界模拟: 专注于复制真实世界场景的视频
- 高质量: 采用多种最先进的视频生成模型生成逼真伪造视频
- 跨提示多样性: 包含来自不同生成器和多种提示模态(文本/图像/视频)生成的视频

关键贡献

提出首个大规模、高质量的真实世界模拟AI生成视频检测数据集
揭示现有方法无法检测世界模型(如Cosmos)生成的高质量视频的缺陷
提出基于多视角一致性的SpannDetector检测模型

技术方法

SpannDetector模型:
- 基于对真实和AI生成视频中多视角一致性的深入分析
- 集成立体重建模型和时间记忆模块以提升一致性检测效率
- 使用真实性评分器评估立体特征，通过全视频平均得分确定最终真实性

实验结果

在Train-Test评估中展示了F1分数(F1)和平均精度(AP)的SOTA比较结果

相关资源

论文: GenWorld: Towards Detecting AI-generated Real-world Simulation Videos
作者: Weiliang Chen, Wenzhao Zheng*, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu, Yueqi Duan†
机构: 清华大学
年份: 2025

搜集汇总

数据集介绍

构建方式

GenWorld数据集的构建过程体现了对真实世界场景的深度模拟与高质量生成视频的严格筛选。研究团队首先从Kinetics-400、NuScenes等权威数据源精选了10,850段真实场景视频，涵盖驾驶、导航等核心生活场景。针对AI生成视频部分，创新性地设计了多模态提示生成流程：通过Video-Llava模型对真实视频进行语义标注后，采用10种前沿生成模型（包括Cosmos、OpenSora等）进行文本到视频、图像到视频及视频到视频的三级生成，形成89,446段具有不同伪造层级的视频样本。这种构建策略通过真实场景锚定与多模态生成技术的结合，确保了数据分布的物理合理性和语义连贯性。

特点

该数据集的核心价值体现在三个维度：真实世界仿真性聚焦于驾驶、室内导航等具有现实影响力的场景，突破了传统数据集中卡通视频占主导的局限；技术前瞻性体现在集成Cosmos等世界模型生成的超逼真视频，其质量已接近专业摄影水准；多模态覆盖性则通过文本、图像、视频三种提示方式生成的样本，系统性地构建了从语义伪造到物理规律模拟的完整伪造谱系。特别值得注意的是，其视频平均分辨率达512×512以上，且包含7384段由Cosmos生成的具有3D一致性的高难度样本，为检测算法提供了极具挑战性的测试基准。

使用方法

该数据集支持两种典型的研究范式：在训练-测试评估中，研究者可采用五类生成模型的训练集进行算法开发，并在另外五类模型及真实视频上测试泛化能力，这种设置模拟了实际应用中面对未知来源视频的检测场景；在跨提示评估中，数据集允许研究者分别针对文本到视频、图像到视频等不同生成方式训练专用检测器，进而分析算法对多级伪造特征的识别能力。为提升研究效率，配套提供了基于Dust3R的多视角一致性分析工具，研究者可通过计算视频帧间的3D投影残差，快速定位生成视频中的物理规律违例特征。

背景与挑战

背景概述

GenWorld数据集由清华大学自动化系和电子工程系的研究团队于2025年创建，旨在解决AI生成视频检测领域的核心问题。随着生成模型技术的快速发展，高质量的视频生成技术对现实世界信息的可信度构成了严重威胁，亟需有效的AI生成视频检测方法。然而，现有数据集大多关注卡通视频或缺乏真实世界场景的模拟，限制了检测器的实际应用效果。GenWorld通过构建大规模、高质量且模拟真实场景的视频数据集，填补了这一空白，为AI生成视频检测研究提供了重要基础。该数据集聚焦于自动驾驶、室内导航和机器人操作等真实场景，具有真实世界模拟、高质量和跨提示多样性三大特征，显著推动了相关领域的研究进展。

当前挑战

GenWorld数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，现有检测方法难以识别由世界模型（如Cosmos）生成的高质量视频，因为这些视频在像素空间上的生成缺陷较少，但物理合理性方面仍存在不一致性。在构建过程中，研究团队需要解决真实世界视频与生成视频之间的语义一致性、高质量视频的生成与筛选，以及跨多种生成模型和提示方式的多样性整合等难题。此外，确保生成视频在时间连贯性和物理合理性方面达到高标准，也是数据集构建过程中的重要挑战。

常用场景

经典使用场景

GenWorld数据集在AI生成视频检测领域具有重要应用价值，其经典使用场景包括自动驾驶、室内外导航、机器人操作以及人类活动模拟等真实世界场景。这些场景的视频数据因其高度逼真性，对检测模型的泛化能力提出了更高要求。数据集通过整合10种先进生成模型（如Cosmos、OpenSora等）的多样化输出，为研究者提供了跨文本、图像、视频多模态提示生成的检测基准，尤其擅长验证模型在物理一致性（如3D结构、运动连贯性）方面的判别能力。

解决学术问题

该数据集有效解决了AI生成视频检测领域的两大核心学术问题：一是填补了高质量真实世界模拟视频数据集的空白，突破了过去以卡通或低质量生成为主的局限；二是揭示了传统方法依赖像素级伪影检测的不足，推动学界转向基于物理合理性（如多视角一致性）的检测范式。通过构建包含文本到视频、图像到视频、视频到视频三种生成层级的结构化数据，为研究不同伪造程度视频的特征提供了系统性分析基础。

衍生相关工作

基于GenWorld的3D一致性分析催生了SpannDetector等创新工作，该模型通过融合立体重建与时间记忆模块，在Cosmos生成视频检测准确率上实现72.44%的突破。数据集还推动了DeMamba、VideoMAE等现有方法的性能验证，揭示其在跨提示模态检测中的局限性。相关研究衍生出对视频世界模型生成机理的深入探索，如Navigation World Model的物理合理性评估，为生成与检测技术的对抗性发展提供了理论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集