Video Reality Test
收藏Video Reality Test 数据集概述
数据集基本信息
- 数据集名称:Video Reality Test
- 核心研究问题:测试在紧密的音频-视觉耦合下,AI生成的ASMR视频能否欺骗视觉语言模型(VLMs)和人类。
- 基准套件特点:
- 沉浸式ASMR视频-音频源:基于精心筛选的真实ASMR视频构建,针对细粒度的动作-物体交互,在物体、动作和背景上具有多样性。
- 同行评审评估:采用对抗性的创建者-评审者协议,视频生成模型作为旨在欺骗评审者的创建者,而VLMs则作为试图识别虚假性的评审者。
数据集内容与构成
真实ASMR语料库
- 视频总数:149个(100个困难级别 + 49个简单级别)
- 包含内容:
- 真实视频(
Real_ASMR/videos) - 提取的图像(
Real_ASMR/pictures) - 困难级别的提示词(
Real_ASMR_Prompt.csv:ref为图像路径,text为提示词)
- 真实视频(
AI生成的ASMR视频
- 困难级别视频:已发布,包含来自13种不同视频生成设置的视频,总计 100 x 13 个。
- 简单级别视频:尚未发布。
- 涉及的生成模型与设置:
- OpenSoraV2(图像到视频,文本到视频,图像文本到视频)
- Wan2.2(A14B-图像到视频,A14B-文本到视频,5B-图像文本到视频)
- Sora2变体(图像到视频,文本到视频)(带水印,不带水印)
- Veo3.1-fast(图像到视频)
- Diffsynth-Studio Hunyuan(图像到视频,文本到视频)/ StepFun(文本到视频)
- 数据组织:提供
1 + k个视频片段(k = 13个伪造家族),支持对共享相同文本基础但创建者不同的情况进行细粒度研究。
数据获取与组织
获取地址
- Hugging Face:https://huggingface.co/datasets/kolerk/Video_Reality_Test
- ModelScope:https://modelscope.cn/datasets/wjqkoko/Video_Reality_Test
- 说明:两个镜像托管相同内容,可根据CDN位置选择。
文件结构
主压缩文件为 Video_Reality_Test.tar.gz,解压后(使用 tar -xzf Video_Reality_Test.tar.gz)的文件夹布局如下:
Video_Reality_Test/ ├── Video_Reality_Test.tar.gz ├── jq_1/ │ ├── HunyuanVideo/ │ ├── OpensoraV2/ │ ├── Real_ASMR/ │ ├── Real_ASMR_Prompt.csv │ ├── Sora2-it2v/ │ ├── Sora2-it2v-wo-watermark/ │ ├── Sora2-t2v/ │ ├── StepVideo-t2v/ │ ├── Veo3.1-fast/ │ ├── Wan2.2/ └── ...
- 每个生成器特定目录包含以提示ID命名的视频片段,可与
Real_ASMR_Prompt.csv对齐。 __MACOSX文件夹可安全删除。
生成设置
- OpenSoraV2:提供大多数基线轨迹。
- Wan2.2:补充需要更丰富光照的电影场景。
- Diffsynth-Studio:从相同提示生成
Hunyuan和StepFun变体以比较供应商特定偏差。 - Sora 2:通过官方门户网站生成,并使用特定网站去除水印。
- Veo 3.1 fast:通过Google的预览界面生成。
- 说明:除非另有说明,否则保持每个平台的原生采样器设置。
评估代码运行
克隆代码库
- 仅克隆评估代码:
git clone https://github.com/video-reality-test/video-reality-test.git - 克隆评估代码及视频生成子模块:
git clone --recurse-submodules https://github.com/video-reality-test/video-reality-test.git
安装与配置
- 创建Python环境并安装依赖(
pip install -r requirements.txt)。 - 下载数据集并解压至
data/目录下。 - 在
eval_judgement.py和eval_judgement_audio.py中配置API密钥、模型名称、数据集路径和结果保存路径。 - 运行评估脚本:
- 仅视觉评估:
python eval_judgement.py - 视觉+音频评估:
python eval_judgement_audio.py(目前仅适用于Gemini 2.5 Pro或Gemini 2.5 Flash API)
- 仅视觉评估:
引用信息
使用本基准时请引用以下论文:
@misc{wang2025videorealitytestaigenerated, title={Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?}, author={Jiaqi Wang and Weijia Wu and Yi Zhan and Rui Zhao and Ming Hu and James Cheng and Wei Liu and Philip Torr and Kevin Qinghong Lin}, year={2025}, eprint={2512.13281}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.13281}, }




