AVQA-R1-6K

github2025-05-09 更新2025-05-10 收录

下载链接：

https://github.com/HarryHsing/EchoInk

下载链接

链接失效反馈

官方服务：

资源简介：

AVQA-R1-6K是从OmniInstruct-v1中提取的数据集，包含4,490个训练样本和1,911个验证样本。每个样本包括一个同步的音频-图像对，带有一个多项选择题和四个选项。

AVQA-R1-6K is a dataset extracted from OmniInstruct-v1, which includes 4,490 training samples and 1,911 validation samples. Each sample consists of a synchronized audio-image pair, along with a multiple-choice question and four options.

创建时间：

2025-05-08

原始信息汇总

EchoInk-R1 数据集概述

数据集基本信息

名称: AVQA-R1-6K
来源: 基于OmniInstruct-v1数据集派生
类型: 多模态音频-图像问答数据集
规模:
- 训练样本: 4,490
- 验证样本: 1,911

数据内容

每个样本包含:
- 同步的音频-图像对
- 多项选择题(含四个选项)
数据格式:

AVQA_R1/ ├── train/ │ ├── audios/ │ ├── images/ │ └── omni_rl_format_train.json ├── valid/ │ ├── audios/ │ ├── images/ │ └── omni_rl_format_valid.json

性能指标

基准模型: Qwen2.5-Omni-7B (80.53%准确率)
优化模型: EchoInk-R1-7B (85.77%准确率)
优化方法: Group Relative Policy Optimization (GRPO)
训练步数: 562 RL steps

训练框架特点

支持多模态输入: 音频/图像/视频/文本
提供完整流程: 数据集/训练/评估
可扩展性强: 易于适配新多模态推理任务

引用信息

bibtex @article{xing2025echoink, title={{EchoInk-R1}: Exploring Audio-Visual Reasoning in Multimodal {LLMs} via Reinforcement Learning}, author={Zhenghao Xing and Xiaowei Hu and Chi-Wing Fu and Wenhai Wang and Jifeng Dai and Pheng-Ann Heng}, year={2025}, journal={arXiv preprint arXiv:2505.04623} }

搜集汇总

数据集介绍

构建方式

在多媒体人工智能研究领域，AVQA-R1-6K数据集通过精心设计的构建流程为音视频推理任务提供了标准化基准。该数据集基于OmniInstruct-v1知识库进行扩展，采用同步音画配对的方式构建，包含4,490个训练样本和1,911个验证样本。每个样本均由音频-图像对、多选题及其四个选项组成，通过严格的标注流程确保数据质量。数据集的构建特别注重多模态对齐，为后续的强化学习训练提供了可靠的监督信号。

特点

AVQA-R1-6K展现出多模态数据集的前沿特性，其核心价值体现在三个方面：同步音画输入实现了跨模态表征学习，多选题形式支持结构化推理评估，样本平衡性保障了模型训练的稳定性。数据集特别设计了具有认知挑战性的问题类型，能够有效激发模型进行反思性推理。实验表明，该数据集能准确反映模型在多模态理解、逻辑推理和决策优化等方面的性能差异。

使用方法

使用该数据集需遵循标准化流程：通过Git LFS工具克隆原始数据后，按照指定目录结构解压音频、图像及标注文件。数据集已适配Qwen2.5-Omni框架，用户可直接加载预处理的JSON格式标注进行模型训练。评估阶段提供专用脚本计算多选题准确率等核心指标。为扩展应用，研究者可参照提供的Python脚本模板，将数据集转换为适合其他多模态大模型训练的输入格式。数据集配套的完整工具链显著降低了多模态研究的入门门槛。

背景与挑战

背景概述

AVQA-R1-6K数据集是EchoInk-R1框架的核心组成部分，由Zhenghao Xing等研究人员于2025年提出，旨在探索多模态大语言模型在音频-视觉联合推理方面的能力。该数据集源自OmniInstruct-v1，包含6,401个经过精心设计的同步音频-图像对样本，每个样本均配备多选问题及四个候选答案。作为首个基于强化学习优化的统一音频-视觉推理框架的数据支撑，AVQA-R1-6K通过Group Relative Policy Optimization（GRPO）算法显著提升了Qwen2.5-Omni-7B模型在跨模态推理任务中的表现，验证准确率达到85.77%，为多模态认知计算领域提供了新的研究范式。

当前挑战

构建AVQA-R1-6K数据集面临双重挑战。在领域问题层面，同步音频-视觉模态的联合推理需解决跨模态语义对齐难题，包括时间同步偏差消除、异构特征融合等核心问题，这对传统单模态模型架构提出了根本性变革需求。在技术实现层面，数据采集需确保音频波形与视觉场景的严格时空匹配，而标注过程涉及复杂的跨模态逻辑验证，例如需设计特殊机制防止模型通过单一模态线索进行答案猜测。此外，GRPO强化学习框架在训练过程中需平衡精度奖励与格式约束的动态关系，这对超参数调优和计算资源分配提出了极高要求。

常用场景

经典使用场景

在多媒体大语言模型的研究中，AVQA-R1-6K数据集为探索音频与视觉信息的联合推理提供了重要支持。该数据集通过同步的音频-图像对及多选问题，成为评估模型跨模态理解能力的标准工具。研究者利用这一数据集，能够深入分析模型在处理复杂视听信息时的表现，从而推动多模态推理技术的发展。

衍生相关工作

围绕AVQA-R1-6K数据集，已衍生出一系列经典研究工作。例如，基于Qwen2.5-Omni-7B的EchoInk-R1框架，通过强化学习优化了多模态推理能力。此外，该数据集还启发了对Group Relative Policy Optimization等训练方法的探索，推动了多模态模型训练技术的进步。

数据集最近研究