AVQA-R1-6K

Name: AVQA-R1-6K
Creator: 香港中文大学, 上海人工智能实验室, 清华大学
Published: 2025-05-08 01:59:49
License: 暂无描述

arXiv2025-05-08 更新2025-05-09 收录

下载链接：

https://github.com/HarryHsing/EchoInk

下载链接

链接失效反馈

官方服务：

资源简介：

AVQA-R1-6K数据集是由香港中文大学、上海人工智能实验室和清华大学合作创建的，旨在提升多模态大语言模型在音频-视觉推理方面的能力。该数据集包含了4440个训练示例和1911个验证示例，每个示例都是由同步的音频-图像输入和来自OmniInstruct-v1数据集的多选题组成的。数据集的创建过程是基于Qwen2.5-Omni-7B模型，并通过Group Relative Policy Optimization (GRPO)进行优化。数据集的应用领域是解决多模态大语言模型在结构化跨模态推理方面的挑战，特别是当整合音频和视觉信号时。

The AVQA-R1-6K dataset was collaboratively developed by The Chinese University of Hong Kong, Shanghai AI Laboratory, and Tsinghua University, with the aim of enhancing the audio-visual reasoning capabilities of multimodal large language models (LLMs). This dataset consists of 4,440 training examples and 1,911 validation examples, where each example comprises synchronized audio-image inputs and multiple-choice questions sourced from the OmniInstruct-v1 dataset. The dataset was constructed based on the Qwen2.5-Omni-7B model and optimized via Group Relative Policy Optimization (GRPO). This dataset is designed to address the challenges encountered by multimodal large language models in structured cross-modal reasoning, particularly when integrating audio and visual signals.

提供机构：

香港中文大学, 上海人工智能实验室, 清华大学

创建时间：

2025-05-08

原始信息汇总

EchoInk-R1数据集概述

基本信息

数据集名称: AVQA-R1-6K
来源: 基于OmniInstruct-v1构建
发布机构: HarryHsing
发布时间: 2025年5月8日
相关论文: EchoInk-R1技术报告

数据集内容

样本数量:
- 训练集: 4,490个样本
- 验证集: 1,911个样本
数据类型: 同步的音频-图像对
任务类型: 多项选择题问答
每个样本包含:
- 一个同步的音频-图像对
- 一个多项选择题
- 四个选项

数据集结构

AVQA_R1/ ├── train/ │ ├── audios/ │ ├── images/ │ └── omni_rl_format_train.json ├── valid/ │ ├── audios/ │ ├── images/ │ └── omni_rl_format_valid.json

性能表现

EchoInk-R1-7B模型在AVQA-R1-6K验证集上的准确率达到85.77%
基线模型(Qwen2.5-Omni-7B)的准确率为80.53%

特点

支持音频、图像、视频和文本多种模态
提供完整的流程: 数据集、训练和评估
基于Qwen2.5-Omni-7B模型，使用**Group Relative Policy Optimization (GRPO)**进行优化

获取方式

数据集下载地址: AVQA-R1-6K
模型下载地址: EchoInk-R1-7B

引用格式

bibtex @article{xing2025echoink, title={{EchoInk-R1}: Exploring Audio-Visual Reasoning in Multimodal {LLMs} via Reinforcement Learning}, author={Zhenghao Xing and Xiaowei Hu and Chi-Wing Fu and Wenhai Wang and Jifeng Dai and Pheng-Ann Heng}, year={2025}, journal={arXiv preprint arXiv:2505.04623} }

搜集汇总

数据集介绍

构建方式

AVQA-R1-6K数据集构建于OmniInstruct-v1数据集的基础之上，通过精心筛选和配对同步的音频-图像输入与多项选择题，形成专门用于音频-视觉推理任务的子集。构建过程中，研究人员从原始数据集中提取了4,490个训练样本和1,911个验证样本，确保了数据在模态对齐和任务多样性上的高质量。每个样本均包含音频-图像对及其对应的多项选择题，旨在促进模型在跨模态推理中的深度理解能力。

使用方法

AVQA-R1-6K数据集主要用于训练和评估多模态大型语言模型（MLLMs）在音频-视觉推理任务中的表现。使用该数据集时，研究人员可通过输入同步的音频-图像对和多项选择题，引导模型生成结构化的推理过程和最终答案。数据集支持强化学习框架（如GRPO）的优化，通过奖励设计（如答案准确性和格式一致性）来提升模型的推理能力。此外，数据集还可用于研究模型在跨模态整合中的表现，特别是在处理模糊或冲突信息时的自我修正能力。

背景与挑战

背景概述

AVQA-R1-6K数据集由香港中文大学、上海人工智能实验室和清华大学的研究团队于2025年联合推出，旨在推动多模态大语言模型（MLLMs）在音频-视觉联合推理领域的研究。该数据集基于OmniInstruct-v1构建，包含4,490个训练样本和1,911个验证样本，专注于同步音频-图像对的多选题问答任务。作为强化学习框架EchoInk-R1的核心训练资源，其创新性体现在首次通过轻量级强化学习（GRPO算法）实现了开放环境下跨模态的深度推理，验证集准确率达85.77%，显著提升了基线的单模态依赖问题。该工作发表于arXiv预印本平台，代码与数据已开源，为多模态认知智能的发展提供了重要基准。

当前挑战

AVQA-R1-6K面临的挑战主要体现在两个维度：在领域问题层面，现有模型仍难以克服跨模态语义鸿沟，当音频信号模糊或视觉场景复杂时（如紧急警报声与人群图像的关联），模型易陷入单模态主导的浅层推理；在构建过程中，数据标注需精确对齐跨模态时空关系，例如视频中的枪声需与特定视觉动作帧同步，这对标注者的多模态感知能力提出极高要求。此外，数据规模限制（仅6K样本）制约了模型对长尾场景的泛化能力，如罕见声学事件与非常规视觉组合的推理。这些挑战指向未来需突破的方向：构建更大规模的时空对齐数据集，以及设计显式促进跨模态交互的奖励机制。

常用场景

经典使用场景

AVQA-R1-6K数据集在音频-视觉多模态推理领域具有重要应用价值，其最经典的使用场景是支持多模态大语言模型（MLLMs）进行同步音频-图像对的问答任务。通过该数据集，研究者能够训练和评估模型在复杂跨模态推理任务中的表现，例如模型需要同时理解音频中的声音信息和图像中的视觉线索，进而回答相关选择题。这种场景不仅考验模型的多模态感知能力，还要求其具备深层次的推理和整合能力。

解决学术问题

AVQA-R1-6K数据集解决了多模态大语言模型在音频-视觉推理任务中的关键学术问题，特别是模型在跨模态信号整合和结构化推理方面的不足。传统MLLMs往往依赖单一模态或浅层关联，而该数据集通过提供同步的音频-图像对及其对应的问题，促进了模型在复杂场景下的深度推理能力。此外，数据集还支持强化学习框架（如GRPO）的优化，显著提升了模型在模糊多模态输入下的自我修正和反思能力。

实际应用

在实际应用中，AVQA-R1-6K数据集为智能助手、多媒体检索系统和交互式代理等场景提供了重要支持。例如，在智能安防领域，模型可以通过分析监控视频中的视觉信息和环境声音，快速识别异常事件；在教育领域，模型能够结合课件图像和教师讲解音频，为学生提供精准的问答服务。这些应用不仅提升了多模态技术的实用性，也为未来人机交互的智能化发展奠定了基础。

数据集最近研究