SONIC-O1

github2026-01-31 更新2026-02-02 收录

下载链接：

https://github.com/VectorInstitute/sonic-o1

下载链接

链接失效反馈

官方服务：

资源简介：

SONIC-O1是一个完全由人工验证的真实世界音频-视频基准测试，涵盖13个对话领域，用于评估多模态大型语言模型在摘要、基于证据的多选题推理和时间定位（带有理由）方面的能力，并提供人口统计元数据以进行群体分析。

SONIC-O1 is a fully human-verified real-world audio-visual benchmark covering 13 conversational domains. It is developed to evaluate the capabilities of multimodal large language models across three core tasks: summarization, evidence-based multiple-choice reasoning, and temporal localization with justifications. Additionally, the benchmark provides demographic metadata to enable subgroup analysis.

创建时间：

2026-01-14

原始信息汇总

SONIC-O1 数据集概述

数据集基本信息

数据集名称: SONIC-O1
核心用途: 评估多模态大语言模型在音视频理解上的能力，是一个真实世界基准。
主要形式: 视频问答数据集。
访问地址: https://huggingface.co/datasets/vector-institute/sonic-o1
论文地址: https://arxiv.org/abs/2601.21666
联系方式: shaina.raza@vectorinstitute.ai

数据集内容与结构

数据来源: 从YouTube收集的真实世界视频。
涵盖主题: 13个以上真实世界主题，包括医疗咨询、工作面试、紧急场景等。
视频数量: 每个主题包含15-25个精心筛选的视频及完整标注。
标注任务: 包含三种视频问答任务：
1. 任务1 — 摘要: 生成简短摘要、详细摘要及时间线。
2. 任务2 — 多项选择: 生成问题及具有迷惑性的干扰项。
3. 任务3 — 时间定位: 在视频中定位特定时刻。
标注生成: 使用最先进的LLM（如Gemini和GPT-4）生成。
数据组成:
- dataset/videos/: 按主题组织的视频文件。
- dataset/audios/: 提取的音频。
- dataset/captions/: WhisperX转录文本。
- 每个主题的元数据JSON文件。
- vqa/目录: 任务标注（3种任务 × 主题）。

数据集获取与使用

获取方式: 通过Hugging Face Hub下载。 bash huggingface-cli download vector-institute/sonic-o1 --repo-type dataset --local-dir ./
使用前提: 数据集遵循Vector Institute License。
- 仅限学术实体用于非商业学术研究目的，以及Vector Institute的赞助商和合作伙伴使用。
- 使用时必须注明归属：“This work is licensed under the Vector Institute License, Copyright © Vector Institute. All Rights Reserved.”
- 基于数据集构建的产品或服务需显著标明：“Built with Vector Institute SONIC-O1”。

评估框架

评估入口: 代码库中的05_evaluation_inference阶段。
支持模型: VideoLLaMA2, VITA, Gemini, GPT, Uni-MoE变体及自定义集成。
评估指标:
- 任务1: ROUGE-L, Judge-Score
- 任务2: 准确率
- 任务3: Temporal IoU, Precision@K, 平均绝对误差

引用信息

如需在研究中使用此数据集或流程，请引用： bibtex @article{radwan2026sonico1, title={SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding}, author={Radwan, Ahmed Y and Emmanouilidis, Christos and Tabassum, Hina and Pandya, Deval and Raza, Shaina}, journal={arXiv preprint arXiv:2601.21666}, year={2026} }

搜集汇总

数据集介绍

构建方式

在多媒体人工智能领域，构建高质量的视听理解数据集是评估多模态大语言模型的关键。SONIC-O1数据集通过一个系统化的五阶段流程精心构建，涵盖了从数据收集到标注生成的完整过程。该流程首先从YouTube平台收集真实世界视频，覆盖医疗咨询、求职面试、应急场景等13个主题，随后利用WhisperX技术生成带时间戳的字幕，再通过先进的LLM（如Gemini和GPT-4）进行人口统计标注，并最终生成三类视频问答任务，包括摘要总结、多项选择题和时间定位问题，确保数据集的多样性和实用性。

使用方法

使用SONIC-O1数据集时，研究人员需从Hugging Face平台下载预处理的视频和标注文件，并按照提供的五阶段管道代码进行配置。评估阶段为核心环节，用户可通过运行评估脚本，选择支持的模型（如VideoLLaMA2、VITA或Gemini），在指定任务和主题上测试性能，系统会自动计算ROUGE-L、准确率及时间IoU等指标。数据集的设计允许灵活定制，用户可根据需要重新运行数据收集或标注生成步骤，但需注意API密钥和环境依赖的配置，以确保流程的顺利执行。

背景与挑战

背景概述

在人工智能迈向多模态理解的时代，音频与视频信息的融合分析成为关键前沿。SONIC-O1数据集由Vector Institute的研究团队于2026年创建，旨在为多模态大语言模型在音视频理解领域提供一个现实世界的评估基准。该数据集聚焦于视频问答任务，涵盖了医患咨询、求职面试、应急场景等13个现实主题，通过智能体工作流系统化地生成摘要、多项选择与时序定位三类任务。其核心研究问题在于如何精准评估模型对复杂、动态且富含上下文信息的真实场景音视频内容的理解与推理能力，为推进通用多模态智能体的发展奠定了重要的数据基础。

当前挑战

SONIC-O1致力于解决视频问答领域的关键挑战，即模型需在理解视觉场景、听觉信息及两者时序关联的基础上，完成复杂的认知任务，如推断对话意图或定位特定事件。这要求模型具备跨模态对齐、上下文推理和细粒度时序理解能力。在数据集构建过程中，挑战同样显著：首先，从海量网络视频中筛选出高质量、多样化的真实场景内容需克服数据噪声与版权限制；其次，利用大语言模型自动生成可靠且具有判别力的问答标注，需精心设计提示工程以控制生成质量，并确保标注的准确性与逻辑一致性，避免引入模型本身的偏见或错误。

常用场景

经典使用场景

在多媒体人工智能领域，SONIC-O1数据集为评估多模态大语言模型在音视频理解任务上的性能提供了基准平台。该数据集通过涵盖医患咨询、求职面试、紧急响应等13个现实世界主题，构建了包含视频摘要、多项选择题与时间定位三类任务的标准化评估框架。研究人员能够利用这一基准，系统性地测试模型在复杂场景下整合视觉与听觉信息的能力，从而推动多模态理解技术的迭代与优化。

解决学术问题

SONIC-O1数据集致力于解决多模态人工智能研究中长期存在的评估标准缺失问题。传统基准往往局限于单一模态或简化场景，难以反映真实世界的复杂性。该数据集通过引入多样化的现实主题与结构化任务，为衡量模型在音视频联合理解、时序推理以及情境感知等方面的能力提供了量化依据。其意义在于建立了可复现的评估体系，促进了模型性能的横向比较，并为多模态融合技术的理论发展提供了实证基础。

实际应用

在实际应用层面，SONIC-O1数据集能够支撑智能辅助系统、人机交互界面以及内容分析工具的研发。例如，在医疗领域，基于该数据集训练的模型可协助分析医患沟通视频，自动生成咨询摘要或识别关键诊疗节点；在教育与培训中，系统能够评估模拟面试或应急演练的视频表现，提供实时反馈。这些应用不仅提升了行业效率，也为构建更自然、更智能的多模态交互系统奠定了数据基础。

数据集最近研究