AirQA

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/OpenDFM/AirQA

下载链接

链接失效反馈

官方服务：

资源简介：

AirQA是一个人工标注的多模态多任务多论文问答数据集，具有基于功能的实例特定评估。它是第一个涵盖多种问题类型的数据集，也是第一个将基于功能的评估引入问答领域的数据集，能够方便和系统地评估研究能力。

AirQA is a human-annotated multimodal, multi-task, multi-paper question answering dataset with function-based instance-specific evaluation. It is the first dataset covering diverse question types, and also the first to introduce function-based evaluation into the question answering domain, enabling convenient and systematic assessment of research capabilities.

创建时间：

2026-01-28

原始信息汇总

AirQA 数据集概述

数据集基本信息

数据集名称：AirQA
发布状态：ICLR 2026 Poster
核心描述：一个用于人工智能研究、具有实例级评估功能的人工标注多模态多任务多论文问答数据集。

主要贡献与特点

首创性：据我们所知，AirQA 是首个涵盖多种问题类型的数据集，也是首个将基于函数的评估引入问答领域的数据集，便于对研究能力进行便捷、系统的评估。
多维度特性：该数据集具备多模态、多任务、多论文的特性，并采用基于函数的实例特异性评估。
配套框架：引入了 ExTrActor，一个基于文档的框架，旨在合成问答示例、交互轨迹和指令数据，作为一种无需人工标注即可提升智能体多轮工具使用能力的经验方法。

数据集内容与评估

评估验证：在 AirQA 数据集上评估了各种大语言模型和不同的问答基线，证明了数据集的质量，并指出了当前方法的不足。指令微调实验表明，小模型显著受益于合成的指令数据，验证了 ExTrActor 框架的有效性。
数据格式：详细的数据格式说明见文档 documents/data_format.md。

数据获取与使用

官方数据仓库：Hugging Face (https://huggingface.co/datasets/OpenDFM/AirQA)
仓库内数据：完整的问答数据已包含在仓库的 data/test_data.jsonl 中。
可选下载：可下载论文相关的元数据、处理后的数据和PDF文件。运行 ExTrActor 需要下载PDF文件（约需60G额外磁盘空间）。
评估脚本：提供了评估工具脚本 (utils/eval_utils.py)，需配置 OpenAI API 密钥。

文档与教程

数据格式：documents/data_format.md
评估说明：documents/evaluation.md
ExTrActor 使用：documents/extractor.md

引用信息

如果使用此数据集，请引用：

@misc{huang2025airqacomprehensiveqadataset, title={AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation}, author={Tiancheng Huang and Ruisheng Cao and Yuxin Zhang and Zhangyi Kang and Zijian Wang and Chenrun Wang and Yijie Luo and Hang Zheng and Lirong Qian and Lu Chen and Kai Yu}, year={2025}, eprint={2509.16952}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.16952}, }

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，高质量的问答数据集对于评估模型的多模态与多任务能力至关重要。AirQA的构建采用了人工标注与自动化框架相结合的策略，通过ExTrActor这一文档驱动框架，系统地从多篇学术论文中合成问答实例、交互轨迹及指令数据。该过程不仅涵盖了多种问题类型，还首次引入了基于函数的实例级评估机制，确保了数据集的全面性与评估的系统性，为研究能力的量化提供了坚实基础。

特点

AirQA作为一项创新性数据集，其核心特点在于融合了多模态、多任务与多论文的问答场景，并实现了基于函数的实例特异性评估。数据集覆盖了多样化的提问形式，能够全面检验模型在复杂学术内容中的理解与应用能力。此外，通过引入自动化合成框架，AirQA有效降低了人工标注的依赖，同时保持了数据的高质量与一致性，为人工智能研究提供了兼具广度与深度的评估平台。

使用方法

使用AirQA进行模型评估时，研究人员需首先配置相应的Python环境并安装依赖项。数据集的核心测试数据已包含在仓库中，用户可根据需要下载论文元数据、处理后的数据及原始PDF文件以辅助问答过程。评估流程通过调用预定义的函数脚本实现，支持对模型答案的自动化评分。对于希望进一步生成合成数据的用户，可参考ExTrActor框架的详细文档，通过配置与运行相应脚本来扩展训练或测试实例。

背景与挑战

背景概述

在人工智能研究领域，多模态问答系统的发展亟需高质量、多样化的评估基准。AirQA数据集于2025年由黄天程、曹瑞生等研究人员提出，并计划在ICLR 2026会议上展示。该数据集由OpenDFM机构发布，旨在通过人类标注构建一个涵盖多模态、多任务、多论文的问答数据集，并引入基于函数的实例级评估机制。其核心研究问题聚焦于如何系统评估模型在复杂学术文献理解与推理中的综合能力，特别是工具使用和多轮交互的效能。AirQA的创立填补了现有问答数据集中在跨模态、细粒度评估方面的空白，为推进智能代理的研究提供了重要的实验平台。

当前挑战

AirQA数据集致力于解决人工智能研究中的多模态问答问题，其挑战首先体现在领域问题的复杂性上：模型需要同时处理文本、图表等多种模态信息，并完成摘要生成、事实核查、数值计算等多样任务，这对模型的跨模态理解与推理能力提出了极高要求。其次，在构建过程中，研究人员面临数据收集与标注的艰巨挑战，包括从海量学术论文中提取高质量多模态内容，设计涵盖不同难度与类型的问答对，以及开发一套可靠、自动化的实例级评估函数，以确保评估的客观性与一致性。

常用场景

经典使用场景

在人工智能研究领域，多模态问答系统正日益成为评估模型综合能力的关键工具。AirQA数据集通过整合多篇学术论文的文本与视觉信息，构建了一个涵盖多种问题类型的问答基准。研究者常利用该数据集对大型语言模型进行系统性评估，特别是在多轮对话和工具使用场景下，检验模型从复杂文档中提取、推理并生成准确答案的能力。这种评估不仅揭示了模型在理解学术内容方面的局限性，也为后续优化提供了明确方向。

衍生相关工作

围绕AirQA数据集，已衍生出一系列聚焦于增强模型工具使用与多轮对话能力的研究工作。其中，ExTrActor框架作为配套方法，通过自动化生成问答示例与交互轨迹，为指令微调提供了高质量合成数据，有效提升了小型模型在复杂任务上的表现。这些工作不仅验证了数据集的实用价值，也激发了后续关于低资源自适应、评估协议标准化以及跨模态推理等方向的深入探索，持续丰富着问答系统研究的技术图谱。

数据集最近研究