Omni2Sound_Benchmark

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/Dalision/Omni2Sound_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Omni2Sound基准包含两个主要资源：SoundAtlas和VGGSound-Omni。SoundAtlas是一个大规模、高质量的音频-文本对齐数据集，包含约47万对音频-字幕，源自VGGSound和AudioSet数据集。其通过多轮代理标注流程生成字幕，显著超越了人类专家标注的质量。VGGSound-Omni是一个统一的评估基准，用于视频-文本到音频（VT2A）、视频到音频（V2A）和文本到音频（T2A）任务，包括标准轨道和离屏轨道。数据集适用于音频生成、视频到音频、文本到音频、音频字幕生成等任务，规模在10万到100万样本之间，采用CC BY-NC 4.0许可，仅限非商业用途。

The Omni2Sound Benchmark comprises two main resources: SoundAtlas and VGGSound-Omni. SoundAtlas is a large-scale, high-quality audio-text alignment dataset containing approximately 470,000 audio-caption pairs, sourced from the VGGSound and AudioSet datasets. It generates captions through a multi-round proxy annotation process, significantly surpassing the quality of human expert annotations. VGGSound-Omni is a unified evaluation benchmark for video-text-to-audio (VT2A), video-to-audio (V2A), and text-to-audio (T2A) tasks, including standard and off-screen tracks. The dataset is suitable for tasks such as audio generation, video-to-audio, text-to-audio, and audio caption generation, with a scale ranging from 100,000 to 1,000,000 samples, licensed under CC BY-NC 4.0 for non-commercial use only.

创建时间：

2026-04-20

原始信息汇总

数据集概述

Omni2Sound Benchmark 是 Omni2Sound 项目的一部分，旨在为音频生成任务提供统一的评估基准，包含 SoundAtlas 和 VGGSound-Omni 两个核心资源。相关论文被 CVPR 2026 接收为 Highlight。

1. SoundAtlas

规模：约 47 万条音频-文本描述对，是目前首个在语义和时间对齐质量上显著超越人类专家标注的数据集。
数据来源：源自 VGGSound 和 AudioSet 两个现有音视频数据集。
标注流程：采用多轮智能体标注流水线，包含以下步骤：
- A-V 一致性路由：根据 ImageBind 对齐分数将样本分为高一致性（音视频增强路径）、中等一致性（纯音频路径）和噪声（丢弃）。
- 视觉到语言压缩：先将视觉信息转换为结构化文本描述，再输入音频描述生成智能体，以减少视觉偏差引起的幻觉。
- 初级-高级智能体交接：初级智能体（Gemini 2.5 Flash）处理大部分样本，复杂样本升级至高级智能体（Gemini 2.5 Pro），在保证质量的同时降低 5 倍成本。
- 事后过滤：通过 CLAP 文本-音频忠实度评分和 A-V-T 验证器进行两阶段验证。
质量评估：在 LA-CLAP 和 MS-CLAP 分数上显著优于现有自动标注数据集（如 AudioSetCaps、Auto-ACD、Sound-VECaps），并在语义对齐（MWR-S）和时间对齐（MWR-T）上取得高于人类专家标注的平均胜率。

2. VGGSound-Omni

任务覆盖：统一评估视频到音频（VT2A）、仅视频到音频（V2A）和仅文本到音频（T2A）三种生成任务。
标准轨道：在 VGGSound 测试集上使用 SoundAtlas 生成的描述进行 VT2A、V2A 和 T2A 评估。
鲁棒性轨道（包含 1000 多个样本）：评估模型对非画面内音频的鲁棒性，来源包括：
- 自然事件：低音视频一致性的 VGGSound 样本（通过 IB-Score 和 Desync-Score 过滤）。
- 合成音乐：来自 MusicCaps 的混合背景音乐片段。

3. 相关链接

4. 许可协议

许可：CC BY-NC 4.0（仅限非商业用途）

搜集汇总

数据集介绍

构建方式

Omni2Sound_Benchmark 数据集由 SoundAtlas 与 VGGSound-Omni 两大核心组件构成。SoundAtlas 基于 VGGSound 和 AudioSet 两大公开音频-视觉数据集，通过一套创新的多轮智能体标注流水线（multi-turn agentic annotation pipeline）构建。该流水线首先利用 ImageBind 对齐分数对样本进行音视频一致性路由，将高一致性样本导向音视频增强路径，中等一致性样本进入纯音频路径，噪声样本则被丢弃。随后，视觉信息被转换为结构化文本描述以缓解视觉偏差带来的幻觉问题，再由 Junior 与 Senior 两级智能体接力完成标注，复杂样本自动升级至高级智能体处理，实现了 5 倍的成本压缩。最后，经过 CLAP 文本-音频忠实度评分与音视频-文本验证器的两阶段后置过滤，确保每一条音频-文本对都具有极高的语义与时序对齐质量。VGGSound-Omni 则从 VGGSound 测试集中精选样本，并引入离屏鲁棒性测试分支，涵盖自然低音视频一致性事件与合成背景音乐，构建了统一的视频到音频、文本到音频及视频-文本到音频的评估基准。

使用方法

研究者可通过 Hugging Face Datasets 库直接加载 Omni2Sound_Benchmark 进行使用。推荐的方式是首先在 Python 环境中安装 datasets 与 soundfile 等依赖，随后通过 load_dataset 函数加载数据集。SoundAtlas 部分可用于文本到音频生成的训练与验证，用户能够获得高质量的音频-文本对以微调生成模型。VGGSound-Omni 部分专为评估设计，提供了标准轨与离屏轨两种评测模式，用户可分别测试模型在视频到音频、文本到音频以及视频-文本到音频三种任务上的表现，并考察其对非画面内声源的鲁棒性。建议结合官方发布的代码仓库中的评测脚本进行标准化测试，并将结果与论文中报告的基线进行对比。数据加载时应注意音频文件路径与标注字段的对应关系，对于离屏轨的负样本评测，可参考 VGGSound-Omni 提供的低音视频一致性分数与失同步分数对模型进行深入分析。

背景与挑战

背景概述

在视听理解与生成领域，如何构建兼具语义精确性与时间对齐性的多模态数据集，一直是制约模型性能提升的核心瓶颈。Omni2Sound_Benchmark由Dai、Chen、Jiang等研究人员于2026年提出，发表于CVPR 2026（Highlight），其核心研究问题在于打破文本到音频、视频到音频及视频文本到音频等任务之间的壁垒，实现统一的音频生成与评估。该基准包含两大资源：SoundAtlas，一个包含约47万条高质量音频-文本描述对的数据集，通过创新的多轮智能体标注流水线生成，首次在语义与时间对齐质量上超越人类专家标注；VGGSound-Omni，一个面向VT2A、V2A和T2A任务的统一评估基准，并引入离屏轨道以测试模型对非画面内音频的鲁棒性。Omni2Sound_Benchmark的发布，为多模态音频生成研究提供了高标准的评测平台，显著推动了该领域向统一化、鲁棒化方向演进。

当前挑战

该数据集聚焦于解决两大层面的挑战。在领域问题层面，现有音频生成模型往往针对单一任务设计，缺乏跨模态的统一评估框架，且对非画面内音频（如背景音乐或环境声）的生成能力不足。Omni2Sound_Benchmark通过VGGSound-Omni的离屏轨道，系统性地测试模型在低视听一致性样本上的表现，填补了鲁棒性评估的空白。在构建过程中，面临着标注质量与成本之间的矛盾：传统人工标注耗时昂贵，而自动标注易产生视觉偏差，模型倾向于描述所见而非所闻。SoundAtlas通过设计视觉到语言的压缩策略，将视觉信息先转化为结构化文本再输入音频标注智能体，有效缓解幻觉问题；同时采用初级-高级智能体接力机制，将复杂样本升级处理，实现了5倍成本降低而质量无损。此外，后处理阶段利用CLAP文本-音频忠实度评分与视听文本验证器进行两阶段筛选，确保了标注的保真度，这些创新共同攻克了大规模高质量音频标注的技术难题。

常用场景

经典使用场景

Omni2Sound_Benchmark最为经典的使用场景在于为视频到音频、文本到音频以及视频文本联合到音频的生成任务提供统一的评估基准。该基准以VGGSound-Omni为核心，覆盖标准轨道的三种生成任务，并引入离屏轨道以测试模型处理非视觉对应音频（如自然事件与合成背景音乐）的鲁棒性。研究者可借此对音频生成模型进行全方位的性能衡量，确保模型不仅能在视听一致性场景下生成契合内容的声音，也能在输入模态缺失或矛盾时保持输出质量。这一设计使得该基准成为当前多模态音频生成领域最系统、最苛刻的评测平台。

解决学术问题

该数据集直面当前音频生成领域中评估标准不统一、缺乏鲁棒性测试的学术困境。此前，视频到音频和文本到音频任务常采用各自孤立的评估指标，难以横向对比。Omni2Sound_Benchmark通过构建VT2A、V2A、T2A的统一度量体系，解决了跨任务性能不可比的痛点。更关键的是，其离屏轨道首次系统性地评估模型在面对非视觉相关音频时的输出能力，弥补了现有基准忽视模态失配问题的缺陷。这项贡献推动了音频生成研究从单纯追求对齐精度向兼顾鲁棒性和泛化性的方向演进，为领域设立更全面的评价范式。

实际应用

在实际应用中，Omni2Sound_Benchmark所引导的模型能力对影视后期、虚拟现实和辅助听觉等场景极具价值。例如，在电影特效制作中，视频内容往往需要精准同步的音频特效，该基准评估的模型可依据画面自动生成环境音或动作音响；在虚拟现实领域，系统需根据用户视野内视觉元素及描述性文本实时合成沉浸式声景；而在辅助听障人士的应用里，模型能根据视频场景的文字描述生成对声音事件的自然语言解释或替代音频。这些落地方向均仰赖于对模态间一致性与离屏鲁棒性的综合考察，构成该基准对外部世界赋能的重要窗口。

数据集最近研究