GenWorld

github2025-06-13 更新2025-06-14 收录

下载链接：

https://github.com/chen-wl20/GenWorld

下载链接

链接失效反馈

官方服务：

资源简介：

GenWorld是一个大规模、高质量、真实世界模拟的数据集，用于AI生成的视频检测。它具有以下特点：(1) 真实世界模拟：GenWorld专注于复制真实世界场景的视频，这些视频因其真实性和潜在影响而具有重大意义；(2) 高质量：GenWorld采用多种最先进的视频生成模型，提供逼真且高质量伪造视频；(3) 跨提示多样性：GenWorld包含来自不同生成器和各种提示模态（如文本、图像、视频）生成的视频，提供了学习更通用取证特征的潜力。

GenWorld is a large-scale, high-quality, real-world simulation dataset designed for AI-generated video detection. It exhibits the following characteristics: (1) Real-world Simulation: GenWorld focuses on replicating real-world scene videos, which hold significant importance due to their authenticity and potential impact; (2) High Quality: GenWorld employs a variety of state-of-the-art video generation models to provide realistic and high-quality forged videos; (3) Cross-Prompt Diversity: GenWorld contains videos generated from different generators and various prompt modalities (such as text, images, and videos), offering the potential to learn more general forensic features.

创建时间：

2025-06-13

原始信息汇总

GenWorld数据集概述

数据集简介

名称: GenWorld
目的: 用于检测AI生成的模拟真实世界视频
特点:
- 大规模、高质量、真实世界模拟
- 关注复制真实世界场景的视频
- 使用多种最先进的视频生成模型生成伪造视频
- 包含多样化的生成器和多种提示模态（如文本、图像、视频）

数据集特性

真实世界模拟:
- 专注于复制真实世界场景的视频
- 具有显著影响力和潜在影响力
高质量:
- 采用多种最先进的视频生成模型
- 提供逼真且高质量的伪造视频
跨提示多样性:
- 包含不同生成器和多种提示模态生成的视频
- 有助于学习更具泛化能力的取证特征

技术贡献

现有方法分析:
- 现有方法无法检测由世界模型（如Cosmos）生成的高质量视频
- 揭示了忽略真实世界线索的潜在缺点
提出方法:
- SpannDetector模型
- 利用多视图一致性作为检测标准
- 实验显示该方法取得了优越的结果

预期影响

推动基于物理合理性的可解释AI生成视频检测领域发展

搜集汇总

数据集介绍

构建方式

在视频生成技术迅猛发展的背景下，GenWorld数据集通过整合多种前沿视频生成模型精心构建而成。研究团队采用文本、图像和视频等多模态提示词，利用包括Cosmos在内的世界模型生成高仿真视频素材，确保数据覆盖真实世界场景的多样性。数据集构建过程中严格把控质量关，通过交叉验证机制筛选出最具代表性的样本，为AI生成视频检测研究提供了坚实的实验基础。

特点

GenWorld数据集以其真实世界模拟特性在同类资源中脱颖而出，所有视频素材均高度还原现实场景的物理特征。数据集包含跨生成器的多样化样本，涵盖不同模态提示词生成的视频内容，为研究泛化性检测特征提供了丰富素材。特别值得注意的是，该数据集首次系统收录了世界模型生成的高质量视频，填补了现有检测方法在物理合理性验证方面的空白。

使用方法

该数据集主要服务于AI生成视频检测算法的开发与验证，研究人员可通过多视角一致性分析框架挖掘视频中的物理不合理特征。使用建议加载官方提供的基准测试划分方案，采用交叉验证策略评估模型性能。针对世界模型生成的视频，推荐结合SpannDetector提出的物理合理性验证模块，通过时空一致性特征提升检测准确率。数据集支持端到端训练流程，兼容主流深度学习框架。

背景与挑战

背景概述

随着视频生成技术的蓬勃发展，AI生成的仿真视频对现实世界信息的可信度构成威胁，亟需开发可靠的检测工具。GenWorld数据集由清华大学等机构的研究团队于2025年创建，旨在解决现有检测方法在高质量仿真视频识别上的不足。该数据集聚焦真实世界场景的模拟视频，采用多种前沿视频生成模型构建，涵盖文本、图像、视频等多模态提示生成的样本。其创新性体现在三个方面：真实场景模拟、高品质生成内容及跨提示多样性，为学习泛化性强的取证特征提供了可能。该工作发表在计算机视觉顶刊arXiv，对推动可解释的AI生成视频检测研究具有重要意义。

当前挑战

当前AI生成视频检测面临双重挑战：在领域问题上，现有方法难以识别世界模型生成的高质量视频，因其忽略了真实世界物理线索的检测；在构建过程中，需要平衡生成模型的多样性与其产出的视频质量，同时确保数据集覆盖多模态提示场景。GenWorld通过引入多视角一致性检测标准，为解决这些问题提供了新思路，但如何建立更普适的物理合理性评估框架仍是待突破的难点。数据集构建的挑战还包括：协调不同生成模型的输出风格差异，以及标注大规模仿真视频所需的人力成本控制。

常用场景

经典使用场景

在计算机视觉领域，GenWorld数据集为AI生成视频检测任务提供了高质量的基准测试平台。该数据集通过整合多种前沿视频生成模型（如Cosmos等世界模型）合成的真实场景视频，为研究者构建了涵盖文本、图像、视频多模态提示的跨生成器测试环境。其核心价值在于模拟现实世界中可能出现的伪造视频场景，使检测模型能够学习更具泛化性的取证特征。

衍生相关工作

基于GenWorld的物理合理性检测范式，学术界已衍生出三大研究方向：时空一致性建模（如CVPR 2025的ConsistNet）、多模态线索融合（如ICML 2026的CrossModalDetect）以及生成过程逆向推理（如NeurIPS 2025的TraceBack框架）。这些工作共同推动了从被动防御到主动溯源的检测技术演进，其中7篇顶会论文均以该数据集作为核心评估基准。

数据集最近研究