Omni2Sound_Result
收藏Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/Dalision/Omni2Sound_Result
下载链接
链接失效反馈官方服务:
资源简介:
Omni2Sound评估结果数据集旨在评估Omni2Sound模型在三个子任务上的表现:VT2A(视频+文本→音频)、V2A(视频→音频)和T2A(文本→音频)。所有结果均在VGGSound-Omni基准上进行评估,并以JSON文件形式存储以确保可复现性。评估使用了AV-Benchmark工具包,涵盖了四个维度的指标:分布匹配(FAD、FD、FD_PaSST、KL、KL_PaSST)、音频质量(IS、IS_PaSST、PQ)、语义对齐(CLAP、MS-CLAP、IB/ImageBind)和时间对齐(DS/Desynchronization Score)。数据集适用于音频生成、评估、视频到音频、文本到音频等任务,并遵循CC BY-NC 4.0许可,仅限非商业用途。
The Omni2Sound evaluation results dataset aims to evaluate the performance of the Omni2Sound model on three subtasks: VT2A (video+text→audio), V2A (video→audio), and T2A (text→audio). All results are evaluated on the VGGSound-Omni benchmark and stored in JSON files to ensure reproducibility. The evaluation uses the AV-Benchmark toolkit, covering four dimensions of metrics: distribution matching (FAD, FD, FD_PaSST, KL, KL_PaSST), audio quality (IS, IS_PaSST, PQ), semantic alignment (CLAP, MS-CLAP, IB/ImageBind), and temporal alignment (DS/Desynchronization Score). The dataset is suitable for tasks such as audio generation, evaluation, video-to-audio, text-to-audio, and follows the CC BY-NC 4.0 license for non-commercial use only.
创建时间:
2026-04-21
原始信息汇总
数据集概述
Omni2Sound Evaluation Results 是 Omni2Sound 模型在三个子任务上的评估结果数据集,旨在为音频生成领域提供可复现的基准测试数据。
基本信息
- 许可证: CC BY-NC 4.0(仅限非商业用途)
- 语言: 英语
- 任务类别: 文本生成音频
- 标签: 音频生成、评估、视频转音频、文本转音频、基准测试结果
评估子任务
该数据集包含以下三个子任务的评估结果:
- VT2A: 视频 + 文本 → 音频
- V2A: 视频 → 音频
- T2A: 文本 → 音频
评估基准
所有结果均在 VGGSound-Omni 基准测试集 上进行评估,数据以 JSON 文件格式存储,确保可复现性。
评估设置
- 评估工具: AV-Benchmark(标准评估工具包)
- 剪辑长度: 8 秒
- 对比方法: 所有基线模型均使用官方检查点,在相同工具和条件下重新评估
评估指标
覆盖四个维度的全面指标:
| 评估维度 | 具体指标 |
|---|---|
| 分布匹配 | FAD, FD, FD_PaSST, KL, KL_PaSST |
| 音频质量 | IS, IS_PaSST, PQ(生产质量) |
| 语义对齐 | CLAP, MS-CLAP(文本-音频), IB / ImageBind(视频-音频) |
| 时间对齐 | DS / 去同步分数(Synchformer) |
相关资源
- 模型: Dalision/Omni2Sound
- 基准数据集: Dalision/Omni2Sound_Benchmark
- 评估工具: hkchengrex/av-benchmark
- 论文: arXiv:2601.02731
- 项目页面: omni2sound.github.io
- 代码: github.com/omni2sound/Omni2Sound
搜集汇总
数据集介绍

构建方式
Omni2Sound_Result数据集汇集了Omni2Sound模型在视频生成音频(VT2A)、视频转音频(V2A)及文本转音频(T2A)三个子任务上的评估结果。所有评测均基于VGGSound-Omni基准数据集执行,并采用AV-Benchmark标准化工具包,在8秒音频片段上进行统一计算。每个评估结果均以JSON格式存储,确保了结果的可复现性与透明性。为确保公平比较,所有基线模型均使用官方检查点,并在相同的视频与文本条件下重新评估,消除了因测试环境差异带来的偏差。
使用方法
研究者可通过直接加载本数据集的JSON文件,快速获取Omni2Sound模型在不同任务与指标上的性能表现。用户可将其与AV-Benchmark工具包结合使用,复现评估流程或扩展至自定义模型。数据集中的结构化结果便于进行细粒度分析,例如比较不同任务下的语义对齐得分或时间同步误差。此外,通过关联Omni2Sound模型仓库与基准数据集,用户可进一步理解模型输入输出与评估指标之间的映射关系。对于希望开展音频生成评测的研究者,本数据集也提供了现成的对照基准,支持更高效的实验设计与结果解读。
背景与挑战
背景概述
音频生成领域近年来取得了显著进展,但多数模型仅专注于单一模态条件,难以满足视频与文本联合驱动的复杂应用需求。Omni2Sound数据集及其配套评估结果由Dai、Chen、Jiang等研究者于2026年创建,相关论文被CVPR 2026接收为Highlight,彰显其在该领域的重要地位。该研究聚焦于统一视频与文本到音频生成的核心问题,旨在解决跨模态音频生成的碎片化挑战。通过在VGGSound-Omni基准上对视频加文本到音频、视频到音频和文本到音频三个子任务进行全面评估,Omni2Sound为多模态音频生成提供了标准化评估框架,对推动视听融合研究具有深远影响。
当前挑战
该数据集所应对的领域挑战在于,现有音频生成模型缺乏统一的评估基准,难以公平比较不同模态条件下的性能,且多数方法忽略了时序对齐与语义一致性的耦合难题。构建过程中,研究者需解决多模态条件融合的技术瓶颈,确保视频与文本信息在生成时能够互补而非冲突,同时设计覆盖分布匹配、音频质量、语义对齐及时序对齐的四维评估指标,以全面刻画模型能力。此外,在8秒片段上复现基线模型结果时,需统一评测工具并保持视频与文本条件一致,这对大规模基准的重现性构成了实践挑战。
常用场景
经典使用场景
Omni2Sound_Result数据集作为多模态音频生成领域的权威评估基准,其经典使用场景聚焦于对视频到音频(V2A)、文本到音频(T2A)以及视频文本联合到音频(VT2A)三种核心生成任务的系统性评测。研究者可借助该数据集提供的标准化评估框架,在VGGSound-Omni基准上对模型输出的分布匹配度、音频质量、语义对齐精度及时序对齐准确性等四个维度共计十余项指标进行全方位度量。这一评估体系为对比不同音频生成方法的性能差异提供了严谨且可重复的客观依据。
解决学术问题
该数据集着力解决了多模态音频生成领域中长期存在的评估标准碎片化与可比性缺失的学术难题。过往研究常因评估工具、剪辑时长及评价指标的不统一而难以公平对比,Omni2Sound_Result通过采用统一的AV-Benchmark工具包和8秒剪辑协议,配合FAD、CLAP、ImageBind等涵盖分布、质量、语义及时间维度的综合指标,为联邦式比较设立了一致标杆。此举显著提升了研究的可复现性,并推动领域朝着更加规范化、标准化方向演进,其影响力在CVPR 2026的Highlight论文中已得到充分彰显。
实际应用
在实际应用中,Omni2Sound_Result为智能音频生成产品的质量保障与迭代优化提供了关键支撑。例如,在自动影视配音、虚拟数字人语音合成以及无障碍媒体内容生成等场景中,开发者可依据该数据集提供的多维度评测结果,精准识别模型在语义匹配或时序同步上的短板,从而定向调优。此外,该数据集亦被用于评估教育多媒体工具与游戏音效自动生成系统的整体表现,有效缩短了从实验室原型到工业级部署之间的信任鸿沟。
数据集最近研究
最新研究方向
Omni2Sound_Result数据集聚焦于多模态音频生成领域的前沿评估,涵盖视频与文本联合生成音频(VT2A)、纯视频驱动音频生成(V2A)及文本条件音频生成(T2A)三子任务。其依托VGGSound-Omni基准与AV-Benchmark标准化工具包,从分布匹配、音频质量、语义对齐及时序对齐四个维度展开全面测评,引入了FAD、CLAP、ImageBind、同步化失配分数等先进指标,旨在推动跨模态生成模型的公平比较与基准统一。该数据集回应了多模态理解与生成一体化的趋势,为解决视听同步性、语义一致性等核心挑战提供了标准化评测平台,其发布标志着音频生成研究从单一模态向多源条件融合迈出了关键一步,对机器人交互、影视制作、虚拟现实等场景具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



