Video Reality Test

github2025-12-17 更新2025-12-18 收录

下载链接：

https://github.com/video-reality-test/video-reality-test

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了真实ASMR语料库，共149个视频（100个困难级别+49个简单级别），包括真实视频（Real_ASMR/videos）、提取的图像（Real_ASMR/pictures）和困难级别的提示（Real_ASMR_Prompt.csv）。我们还发布了来自13种不同视频生成设置的AI生成的困难级别ASMR视频，共100 x 13个视频。数据集在HuggingFace和ModelScope上提供，包含所有真实视频、生成视频和元数据文件。

We present the Real ASMR Corpus, which comprises 149 videos (100 at the difficult level and 49 at the easy level). This corpus includes raw real ASMR videos (stored in Real_ASMR/videos), extracted images (Real_ASMR/pictures), and difficulty-level prompt files (Real_ASMR_Prompt.csv). We additionally release AI-generated difficult-level ASMR videos across 13 distinct video generation settings, totaling 100×13 videos. The entire dataset, containing all raw real videos, generated videos, and metadata files, is publicly available on both HuggingFace and ModelScope.

创建时间：

2025-11-24

原始信息汇总

Video Reality Test 数据集概述

数据集基本信息

数据集名称：Video Reality Test
核心研究问题：测试在紧密的音频-视觉耦合下，AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）和人类。
基准套件特点：
- 沉浸式ASMR视频-音频源：基于精心筛选的真实ASMR视频构建，针对细粒度的动作-物体交互，在物体、动作和背景上具有多样性。
- 同行评审评估：采用对抗性的创建者-评审者协议，视频生成模型作为旨在欺骗评审者的创建者，而VLMs则作为试图识别虚假性的评审者。

数据集内容与构成

真实ASMR语料库

视频总数：149个（100个困难级别 + 49个简单级别）
包含内容：
- 真实视频（Real_ASMR/videos）
- 提取的图像（Real_ASMR/pictures）
- 困难级别的提示词（Real_ASMR_Prompt.csv：ref为图像路径，text为提示词）

AI生成的ASMR视频

困难级别视频：已发布，包含来自13种不同视频生成设置的视频，总计 100 x 13 个。
简单级别视频：尚未发布。
涉及的生成模型与设置：
- OpenSoraV2（图像到视频，文本到视频，图像文本到视频）
- Wan2.2（A14B-图像到视频，A14B-文本到视频，5B-图像文本到视频）
- Sora2变体（图像到视频，文本到视频）（带水印，不带水印）
- Veo3.1-fast（图像到视频）
- Diffsynth-Studio Hunyuan（图像到视频，文本到视频）/ StepFun（文本到视频）
数据组织：提供 1 + k 个视频片段（k = 13 个伪造家族），支持对共享相同文本基础但创建者不同的情况进行细粒度研究。

数据获取与组织

获取地址

Hugging Face：https://huggingface.co/datasets/kolerk/Video_Reality_Test
ModelScope：https://modelscope.cn/datasets/wjqkoko/Video_Reality_Test
说明：两个镜像托管相同内容，可根据CDN位置选择。

文件结构

主压缩文件为 Video_Reality_Test.tar.gz，解压后（使用 tar -xzf Video_Reality_Test.tar.gz）的文件夹布局如下：

Video_Reality_Test/ ├── Video_Reality_Test.tar.gz ├── jq_1/ │ ├── HunyuanVideo/ │ ├── OpensoraV2/ │ ├── Real_ASMR/ │ ├── Real_ASMR_Prompt.csv │ ├── Sora2-it2v/ │ ├── Sora2-it2v-wo-watermark/ │ ├── Sora2-t2v/ │ ├── StepVideo-t2v/ │ ├── Veo3.1-fast/ │ ├── Wan2.2/ └── ...

每个生成器特定目录包含以提示ID命名的视频片段，可与 Real_ASMR_Prompt.csv 对齐。
__MACOSX 文件夹可安全删除。

生成设置

OpenSoraV2：提供大多数基线轨迹。
Wan2.2：补充需要更丰富光照的电影场景。
Diffsynth-Studio：从相同提示生成 Hunyuan 和 StepFun 变体以比较供应商特定偏差。
Sora 2：通过官方门户网站生成，并使用特定网站去除水印。
Veo 3.1 fast：通过Google的预览界面生成。
说明：除非另有说明，否则保持每个平台的原生采样器设置。

评估代码运行

克隆代码库

仅克隆评估代码：git clone https://github.com/video-reality-test/video-reality-test.git
克隆评估代码及视频生成子模块：git clone --recurse-submodules https://github.com/video-reality-test/video-reality-test.git

安装与配置

创建Python环境并安装依赖（pip install -r requirements.txt）。
下载数据集并解压至 data/ 目录下。
在 eval_judgement.py 和 eval_judgement_audio.py 中配置API密钥、模型名称、数据集路径和结果保存路径。
运行评估脚本：
- 仅视觉评估：python eval_judgement.py
- 视觉+音频评估：python eval_judgement_audio.py（目前仅适用于Gemini 2.5 Pro或Gemini 2.5 Flash API）

引用信息

使用本基准时请引用以下论文：

@misc{wang2025videorealitytestaigenerated, title={Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?}, author={Jiaqi Wang and Weijia Wu and Yi Zhan and Rui Zhao and Ming Hu and James Cheng and Wei Liu and Philip Torr and Kevin Qinghong Lin}, year={2025}, eprint={2512.13281}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.13281}, }

搜集汇总

数据集介绍

构建方式

在多媒体内容生成领域，评估人工智能生成视频的真实性已成为一项关键挑战。Video Reality Test 数据集的构建采用了一种严谨的对抗性协议，其核心在于“创作者-评审者”的框架设计。该协议以精心筛选的真实ASMR视频作为基础语料，这些视频涵盖了多样化的物体、动作与背景交互。随后，研究团队利用包括OpenSoraV2、Wan2.2、Sora2、Veo3.1-fast以及Diffsynth-Studio在内的13种前沿视频生成模型作为“创作者”，基于相同的文本提示生成对应的合成视频，旨在“欺骗”评审系统。整个构建过程确保了音频与视觉线索的紧密耦合，为评估生成内容的感知真实性提供了结构化的基准。

特点

该数据集的核心特征在于其多维度、精细化的评估体系。它并非简单汇集视频样本，而是构建了一个包含149个真实视频与由13种不同生成设置产生的1300个合成视频的对比集合，形成了“1+k”的样本结构。这种设计使得研究者能够深入探究不同生成模型在共享相同文本基础时所产生的风格与质量变异。数据集特别强调了ASMR场景中细粒度的动作-物体交互，其内容多样性为测试模型在复杂、沉浸式环境下的感知能力提供了丰富素材。此外，数据集完整提供了视频、提取的关键帧以及对应的文本提示，确保了评估流程的可复现性与可扩展性。

使用方法

为使用该数据集进行评估，用户需首先从Hugging Face或ModelScope平台获取数据压缩包，解压后按照预设的目录结构组织文件。评估流程依托于项目提供的开源代码库，用户需配置相应的Python环境并安装依赖项。使用前，必须在评估脚本中正确设置大型视觉语言模型的API密钥、模型名称以及本地数据集路径。评估分为两个主要任务：一是纯视觉模态的真实性判别，通过运行`eval_judgement.py`脚本实现；二是结合视觉与音频的多模态判别，通过运行`eval_judgement_audio.py`脚本实现，后者目前主要适配Gemini系列API。该流程模拟了论文中所述的对抗性评审协议，能够系统性地量化不同模型区分真实与生成内容的能力。

背景与挑战

背景概述

随着生成式人工智能在视频合成领域的迅猛发展，评估合成内容的感知真实度已成为计算机视觉与多媒体研究的前沿课题。Video Reality Test数据集于2025年由相关研究团队创建，旨在构建一个基于自主感觉经络反应（ASMR）视频的基准测试套件，核心研究问题聚焦于紧密音视频耦合情境下，人工智能生成视频在欺骗视觉语言模型与人类感知者方面的能力。该数据集通过精心策划的真实ASMR视频源，涵盖多样化的物体、动作与背景交互，为衡量生成模型的现实还原度提供了细粒度、高保真的评估框架，对推动视频真实性检测与生成模型评测领域的发展具有显著影响力。

当前挑战

该数据集致力于解决音视频多模态内容真实性鉴别的核心挑战，即在高度沉浸的ASMR场景中，区分人工智能合成视频与真实录制视频的难度显著增加，因其要求模型同时理解复杂的动作-物体交互与同步的音频线索。在构建过程中，研究团队面临多重挑战：其一，需精心筛选与标注高质量的真实ASMR视频，确保内容多样性与生态效度；其二，需协调多种前沿视频生成模型（如OpenSoraV2、Sora2、Veo3.1等）产生对抗性样本，以覆盖不同的生成偏差与技术特性；其三，建立一套对抗性的创作者-评审者协议，以标准化评估流程，并整合视觉与听觉模态进行综合评测，这增加了数据对齐与评估设计的复杂性。

常用场景

经典使用场景

在计算机视觉与多媒体生成领域，Video Reality Test数据集为评估生成视频的感知真实性提供了基准。该数据集通过精心构建的ASMR视频库，模拟了紧密耦合的视听交互场景，使得研究者能够系统地测试视频生成模型在细节动作与对象互动上的表现。其经典使用场景在于作为对抗性评估框架，其中生成模型扮演创作者角色，而视觉语言模型则作为评审者，共同探索生成内容在视听一致性上的逼真度。

解决学术问题

该数据集主要解决了生成式人工智能中视频真实感评估的标准化难题。通过提供真实与AI生成的ASMR视频对照，它使得研究者能够量化不同生成模型在细微动作、对象交互及背景多样性上的缺陷。其意义在于建立了多模态感知评估的基准，推动了视频生成技术向更高保真度发展，并为理解人类与机器在视听感知上的差异提供了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在生成模型对抗性评估与多模态感知对齐领域。例如，基于其框架的后续研究探索了不同视觉语言模型在识别生成视频时的鲁棒性；同时，也有工作利用该数据集的提示-视频对，训练了更精细的视听一致性检测器。这些工作共同推动了生成视频质量评估从单一视觉向多模态综合判断的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集