Verse-Bench

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/dorni/Verse-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Verse-Bench是一个评估联合音频-视觉生成的基准数据集，包含从多个来源精心挑选的600个图像-文本提示对。数据集分为三个子集：Set1包含205个样本，包括AI生成、网络爬取和媒体截图的图像-文本对，配有LLM和手动注释生成的视频/音频字幕和语音内容；Set2包含295个样本，由YouTube和Bilibili的视频片段组成，配有LLM生成的字幕和基于Whisper的ASR转录，并经过人工验证；Set3包含100个样本，是2025年9月的TED演讲，使用与Set2相同的注释流程处理。

Verse-Bench is a benchmark dataset for evaluating joint audio-visual generation, which contains 600 carefully selected image-text prompt pairs from multiple sources. The dataset is divided into three subsets: Set1 consists of 205 samples, including image-text pairs generated by AI, crawled from the web, and captured as media screenshots, accompanied by video/audio subtitles and speech content generated by LLM and manual annotations; Set2 includes 295 samples composed of video clips from YouTube and Bilibili, equipped with subtitles generated by LLM and Whisper-based ASR transcriptions, and manually verified; Set3 contains 100 samples, which are TED Talks from September 2025, processed using the same annotation workflow as Set2.

创建时间：

2025-09-02

原始信息汇总

Verse-Bench 数据集概述

数据集简介

Verse-Bench 是一个用于评估联合视听生成的基准数据集，包含 600 个图像-文本提示对。数据来源包括 YouTube 视频帧、BiliBili 视频帧、TikTok 片段、电影、动画、AI 生成图像以及公共网站图像。

数据集组成

Set1：包含 205 个样本，涵盖 AI 生成图像、网络爬取图像和媒体截图，使用大语言模型生成视频/音频字幕和语音内容，并经过人工标注。
Set2：包含 295 个样本，来自 YouTube 和 Bilibili 的视频片段，使用大语言模型生成字幕和 Whisper ASR 转录，经过人工验证。
Set3：包含 100 个样本，来自 2025 年 9 月的 TED Talks，采用与 Set2 相同的标注流程。

数据下载

Set1：可直接从该仓库下载，图像和提示对共享相同文件名。
Set2 和 Set3：
- 下载：运行 python download.py
- 处理：运行 python process.py
- 生成目录：
  - videos_raw：原始下载视频
  - clips：处理后的结果，包含剪辑视频（.mp4）、对应音频（.wav）和参考图像（.png）
- 提示文件位于 data/ 目录，与剪辑视频共享相同文件名。

许可证

代码部分采用 Apache 2.0 许可证。

引用

bibtex @misc{wang2025universe-1, title={UniVerse-1:A Unified Audio-Video Generation Framework via Stitching of Expertise}, author={Wang, Duomin and Zuo, wei and Li, Aojie and Chen, Ling-Hao and Liao, Xinyao and Zhou, Deyu and Yin, Zixin and Dai, Xili and Yu, Gang}, journal={arxiv}, year={2025} }

搜集汇总

数据集介绍

构建方式

在音视频联合生成领域的快速发展背景下，Verse-Bench数据集通过多源数据整合与精细化标注流程构建而成。该数据集从YouTube、Bilibili、TikTok等平台的视频帧、AI生成图像及公开网络图像中精选600组图像-文本对，并采用大型语言模型生成视频描述与语音内容，辅以人工验证确保标注质量。其构建过程分为三个子集：Set1融合AI生成与网络爬取图像，Set2和Set3分别基于在线视频与TED演讲素材，通过Whisper自动语音识别与人工校验完成多模态对齐。

使用方法

针对研究者的实际应用需求，Verse-Bench提供模块化的数据调用方案。Set1可直接通过文件同名匹配获取图像-文本对，Set2和Set3则需运行下载与处理脚本自动提取视频片段、分离音频流及生成元数据。处理后的数据以标准化目录结构组织，包含原始视频、剪辑片段、音频文件及同步标注文本。用户可通过统一接口加载多模态样本，支持端到端的音视频生成模型训练与跨模态一致性评估，为领域研究提供即用型基准平台。

背景与挑战

背景概述

Verse-Bench由研究团队于2025年推出的多模态生成评估基准，专注于音频-视觉联合生成领域的前沿探索。该数据集由Duomin Wang等学者构建，旨在解决传统单模态生成模型在跨模态语义对齐方面的局限性。通过整合YouTube、Bilibili等平台的视频帧、AI生成图像及网络公开资源，构建了包含600个图像-文本对的高质量语料库，为多模态生成模型的性能评估提供了标准化测试环境，显著推动了音视频合成技术的协同发展。

当前挑战

在领域问题层面，Verse-Bench致力于攻克音视频跨模态生成中的语义一致性难题，包括视觉内容与音频信号的时序对齐、多模态表征的联合优化等核心挑战。数据集构建过程中面临原始数据异构性处理（如视频帧提取、音频降噪）、多源数据版权合规性审查，以及通过大语言模型生成标注时需保持描述准确性与情感一致性等复杂工程问题，最终通过人工验证与自动化流程结合的方式确保数据质量。

常用场景

经典使用场景

在多媒体生成领域，Verse-Bench作为评估联合视听生成模型的基准数据集，其经典使用场景体现在对多模态生成系统的综合性能测试。研究者通过该数据集提供的600个图像-文本提示对，能够系统评估模型在生成同步音频和视频内容时的语义一致性与时空协调能力。该数据集特别适用于验证模型从静态图像生成动态视听序列的跨模态理解与生成效果，为音频-视觉联合生成任务设立了标准化评估框架。

解决学术问题

Verse-Bench有效解决了多模态生成研究中缺乏统一评估标准的核心问题，为音频-视觉联合生成任务提供了可量化的性能基准。该数据集通过精心设计的三个子集（Set1-Set3），分别针对不同数据源（AI生成图像、网络爬取图像、影视截图与真实视频）构建了多层次评估体系，显著提升了跨模态生成模型评估的全面性与可靠性。其引入的人工与LLM协同标注机制，确保了文本描述与视听内容的高度一致性，为生成模型的真实性评估提供了重要依据。

实际应用

在实际应用层面，Verse-Bench支撑了多媒体内容创作、虚拟现实与增强现实系统的开发，以及智能教育工具的构建。通过提供高质量的多模态参考数据，该数据集能够训练和评估生成模型在制作教育视频、自动生成影视预告片、创建沉浸式虚拟环境等方面的性能。其涵盖的多样化数据源（如TED演讲、动漫片段、社交媒体视频）确保了生成内容在不同应用场景中的适用性与泛化能力。

数据集最近研究