orca-audio-qa-annotations

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/BUT-FIT/orca-audio-qa-annotations

下载链接

链接失效反馈

官方服务：

资源简介：

ORCA Audio QA Annotations 是一个用于训练和评估 ORCA（开放响应正确性评估）模型的标注数据集。ORCA 是一个用于音频问答任务的评分模型，旨在评估开放式回答的正确性。数据集采用三阶段课程学习框架构建，包含四个子集配置：1) stage1_pretrain：包含 5，332，242 个项目，由 50 个大型语言模型（LLM）法官生成，用于预训练。2) stage2_benchmark：包含 449，730 个项目，由 5 个 LLM 法官生成，用于基准测试。3) stage3_mmau_mmar：包含 2，447 个项目，由人类标注者标注。4) stage3_mmau_pro：包含 1，240 个项目，同样由人类标注者标注。后两个阶段用于微调和最终评估。数据集总计包含超过 500 万个项目，主要任务类别为文本分类，适用于音频问答、正确性评估等研究场景。数据以 JSON Lines 格式存储。该数据集在 CC-BY 4.0 许可证下发布。

ORCA Audio QA Annotations is an annotation dataset for training and evaluating the ORCA (Open Response Correctness Assessment) model. ORCA is a scoring model for audio question-answering tasks, designed to assess the correctness of open-ended responses. The dataset is constructed using a three-stage curriculum learning framework and includes four subset configurations: 1) stage1_pretrain: contains 5,332,242 items generated by 50 large language model (LLM) judges for pre-training. 2) stage2_benchmark: contains 449,730 items generated by 5 LLM judges for benchmarking. 3) stage3_mmau_mmar: contains 2,447 items annotated by human annotators. 4) stage3_mmau_pro: contains 1,240 items also annotated by human annotators. The latter two stages are used for fine-tuning and final evaluation. The dataset totals over 5 million items, with the main task category being text classification, suitable for research scenarios such as audio question-answering and correctness assessment. Data is stored in JSON Lines format. The dataset is released under the CC-BY 4.0 license.

创建时间：

2026-06-29

原始信息汇总

数据集概述

数据集名称: ORCA Audio QA Annotations
许可协议: CC-BY 4.0
语言: 英语
任务类别: 文本分类
数据集规模: 1M < n < 10M

数据集描述

该数据集用于训练和评估 ORCA（Open-ended Response Correctness Assessment） 模型，这是一个针对音频问答任务的开式回答正确性评分模型。ORCA 采用三阶段课程训练策略，每阶段对应一个或多个数据文件。

数据集配置与文件

配置名称	文件名称	样本数量	数据来源
`stage1_pretrain`	`s1-synthetic-qa-ratings.jsonl`	5,332,242	50 个 LLM 评委
`stage2_benchmark`	`s2-mmau-mmar-llm-judge-ratings.jsonl`	449,730	5 个 LLM 评委
`stage3_mmau_mmar`	`s3-mmau-mmar-human-judge-ratings.jsonl`	2,447	人类标注员
`stage3_mmau_pro`	`s3-mmau-pro-human-judge-ratings.jsonl`	1,240	人类标注员

引用

bibtex @article{sedlacek-etal-2026-orca, title={ORCA: Open-ended Response Correctness Assessment for Audio Question Answering}, author={Sedl{a}v{c}ek, v{S}imon and Barahona, Sara and Bola~{n}os, Cecilia and Herrera-Alarc{o}n, Laura and Udupa, Sathvik and L{o}pez, Fernando and Ferner, Allison and Lozano-Diez, Alicia and Yusuf, Bolaji and Kesiraju, Santosh and Duraiswami, Ramani and v{C}ernock{y}, Jan}, howpublished={Accepted to Transactions of the Association for Computational Linguistics}, year={2026}, url={https://arxiv.org/abs/2512.09066} }

搜集汇总

数据集介绍

构建方式

该数据集通过三阶段课程学习策略构建，逐步提升难度与真实性。第一阶段（stage1_pretrain）利用50个大型语言模型（LLM）作为评判者，生成约533万条合成问答评分数据，形成大规模预训练基础。第二阶段（stage2_benchmark）引入5个LLM对约45万条多模态音频理解（MMAU）与多模态音频检索（MMAR）基准数据进行评分，实现模型能力的初步校准。第三阶段（stage3_mmau_mmar与stage3_mmau_pro）则依赖人类标注员对约3700条真实音频问答进行细粒度正确性评估，确保最终评分的准绳贴近人类认知。

使用方法

该数据集专为训练与评估ORCA模型而设计，使用时可依据配置名称（config）加载相应阶段的数据。首先，通过HuggingFace的datasets库，分别调用stage1_pretrain、stage2_benchmark、stage3_mmau_mmar和stage3_mmau_pro四个配置，对应加载s1、s2、s3系列JSONL文件。每个配置对应特定的训练或评估阶段，用户可参考官方GitHub仓库（BUTSpeechFIT/ORCA）中的字段说明与加载示例，将数据用于ORCA模型的逐步训练、基准测试或人工校正后的最终评估。数据格式为JSON Lines，每行包含音频问题、模型回答及对应的正确性评分标签。

背景与挑战

背景概述

近年来，随着语音交互技术的蓬勃发展，音频问答系统在智能助手、教育评估和人机对话等场景中获得了广泛应用。然而，如何自动、准确地评估音频问答系统生成开放域回答的正确性，始终是制约该领域发展的关键瓶颈。在此背景下，ORCA Audio QA Annotations数据集应运而生，由布尔诺理工大学等研究机构于2026年创建，旨在训练和评估面向音频问答的开放域回答正确性评估模型ORCA。该数据集以三阶段课程学习策略构建，融合了合成数据与人工标注，提供了超过530万条标注样本，显著提升了评估模型的泛化能力与可靠性。论文被计算语言学顶级会议TACL 2026接收，为音频问答评估领域注入了新的评估范式与基准资源。

当前挑战

该数据集所应对的领域挑战主要源于音频问答评估中回答正确性判定的复杂性。不同于传统封闭式问答任务，开放域音频问答的回答形式多样、内容自由，缺乏标准答案模板，使得自动评估模型面临语义理解与推理的巨大困难。此外，构建过程中亦遭遇多重挑战：大规模合成标注需要50个LLM进行协同标注，需平衡各模型间的评分偏差；人工标注阶段则面临跨语言、跨场景的音频样本多样性，以及标注者主观判断的一致性难题。三阶段课程设计虽有效提升了模型表现，但各阶段数据分布差异与标注质量校准仍是需要精细处理的技术难点。

常用场景

经典使用场景

在音频问答这一前沿研究领域，ORCA Audio QA Annotations数据集作为标准评估基准，被广泛用于训练和评估能够对开放域音频问答系统的回答正确性进行评分的模型。该数据集覆盖了从合成大规模预训练到人工精标微调的多阶段流程，包含超过530万条合成评分和近3700条人工标注数据，为研究人员提供了从粗粒度到细粒度的完整训练链条。经典使用方式是将该数据集的三阶段配置依次用于模型的预训练、基准微调以及最终的人工标注精调，从而构建出能够准确判别音频问答中回答是否正确、部分正确或错误的评分模型。

解决学术问题

该数据集的核心贡献在于解决了音频问答领域中开放域回答正确性自动评估的学术难题。传统方法依赖于参考答案的精确匹配或固定选项的正确性判断，而面对真实音频问答场景中回答的多样性和开放性，这些方法往往失效。ORCA数据集通过引入多阶段课程学习策略，结合大规模合成数据与高质量人工标注，为模型提供了学习复杂语义匹配和判断回答正确性的能力，推动了音频问答评估从封闭式走向开放式，显著提升了评估的准确性和泛化性。其意义在于为机器学习领域的自动评分任务树立了新标杆，并为多模态问答系统的可信评估奠定了数据基础。

实际应用

在实际应用层面，ORCA数据集及其训练的评分模型可广泛部署于语音助手、智能客服、教育测评等对音频问答质量有严格要求的系统之中。例如，在智能教育场景中，模型可用于自动评判学生对语音问题的回答是否准确，从而提供即时反馈；在语音交互产品中，能够实时评估对话系统的回答质量，辅助系统自我优化。此外，该数据集还支持多语言、多任务的音频问答场景评估，为语音技术商业化落地中的质量监控与测试提供了高效、客观的自动化工具。

数据集最近研究

orca-audio-qa-annotations

数据集概述

数据集描述

数据集配置与文件

相关资源

引用