MADQA

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/OxRML/MADQA

下载链接

链接失效反馈

官方服务：

资源简介：

MADQA是一个包含2,250个人工编写问题的基准数据集，基于800个异构PDF文档，旨在评估对文档集合的代理推理能力。

MADQA is a benchmark dataset comprising 2,250 manually authored questions, built upon 800 heterogeneous PDF documents and designed to evaluate agent reasoning capabilities over document collections.

创建时间：

2026-03-13

原始信息汇总

MADQA数据集概述

数据集基本信息

数据集名称: MADQA (Multimodal Agentic Document QA)
发布机构: OxRML
数据集地址: https://huggingface.co/datasets/OxRML/MADQA
论文地址: https://arxiv.org/abs/2603.12180
Leaderboard地址: https://huggingface.co/spaces/Snowflake/MADQA-Leaderboard
许可证: Apache 2.0

数据集描述

MADQA是一个包含2,250个人工编写问题的基准测试集，这些问题基于800份异构PDF文档。该数据集旨在评估智能体在文档集合上的推理能力。

核心特点

问题数量: 2,250个
文档基础: 800份异构PDF文档
任务类型: 多模态智能体文档问答
评估重点: 智能体在文档集合上的推理能力

评估指标

准确率 (Accuracy)
ANLS*
语义准确率 (Semantic Accuracy)
页面F1分数 (Page F1)
Kuiper

数据集加载方式

python from datasets import load_dataset dataset = load_dataset("OxRML/MADQA")

评估方法

bash pip install -r eval/requirements.txt python eval/evaluate.py results.jsonl python eval/evaluate.py results.jsonl --semantic # 使用LLM评判 python eval/evaluate.py m1.jsonl m2.jsonl --compare # 比较不同系统

引用格式

bibtex @misc{borchmann2026madqa, title={Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections}, author={Łukasz Borchmann and Jordy Van Landeghem and Michał Turski and Shreyansh Padarha and Ryan Othniel Kearns and Adam Mahdi and Niels Rogge and Clémentine Fourrier and Siwei Han and Huaxiu Yao and Artemis Llabrés and Yiming Xu and Dimosthenis Karatzas and Hao Zhang and Anupam Datta}, year={2026}, eprint={2603.12180}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.12180}, }

搜集汇总

数据集介绍

构建方式

在文档智能与多模态推理的研究领域，构建高质量的基准数据集对于推动智能体系统的发展至关重要。MADQA数据集的构建过程体现了严谨的学术设计，其核心基于800份异构的PDF文档，这些文档涵盖了多样化的主题与格式。研究人员精心创作了2,250个人工撰写的问题，每个问题均深度根植于文档集合的具体内容，旨在评估智能体在跨文档、跨页面情境下的推理能力。构建过程特别强调了问题的真实性与复杂性，确保它们能够触发多步骤的检索、视觉与文本内容的融合理解，以及跨页面证据的整合，从而精准模拟现实世界中文档问答的挑战。

特点

作为评估多模态智能体文档问答能力的基准，MADQA数据集展现出若干鲜明特征。其首要特点在于问题的异构性与深度，所有问题均由人类专家设计，要求系统在包含文本、表格、图表等多种模态的800份PDF文档集合中进行导航与推理。数据集特别关注智能体的策略性行为，例如迭代检索、视觉内容解析以及跨页面证据聚合，而非简单的单文档查找。此外，数据集提供了全面的评估指标，包括准确性、ANLS*、语义准确性、页面F1和Kuiper分数，支持对系统性能进行多维度、细粒度的分析，为研究社区提供了可靠的评测标准。

使用方法

对于希望利用MADQA进行实验的研究者而言，其使用方法清晰而高效。数据集可通过Hugging Face的`datasets`库直接加载，简化了数据获取的流程。评估环节则通过配套的命令行工具实现，支持对模型预测结果进行自动化评测，并可选择启用基于大语言模型的语义评判器进行更深层次的对比分析。代码库中提供了多种基线系统的实现，涵盖了从基于BM25的多模态大语言模型智能体到混合视觉检索等多种前沿技术路径，为研究者提供了可复现的起点和系统比较的框架，极大地便利了后续研究与开发工作的开展。

背景与挑战

背景概述

在人工智能与文档智能交叉领域，多模态文档问答系统正逐渐成为研究热点。MADQA数据集由OxRML等研究机构于2026年创建，旨在评估智能体在异构文档集合上的推理能力。该数据集包含2250个人工编写的问题，基于800份结构各异的PDF文档，核心研究聚焦于探索智能体与人类在文档检索与证据整合过程中的策略差异。通过模拟真实场景中的多步骤推理任务，MADQA为文档智能、检索增强生成及多模态代理系统提供了重要的评估基准，推动了智能文档处理技术向更深层次的认知理解发展。

当前挑战

MADQA数据集致力于解决多模态文档问答中的复杂推理挑战，其核心问题在于如何让智能体在视觉与文本信息交织的文档集合中，进行跨页面的证据检索与逻辑整合。构建过程中面临多重困难：首先，文档的异构性要求处理格式、布局与内容类型的多样性，增加了数据标注与标准化的复杂度；其次，设计既需人类级推理又能被自动化评估的问题，需平衡真实性与可度量性。此外，确保智能体不仅能定位信息，还能执行数值计算、时序推理等高级认知操作，对基准的构建提出了更高要求。

常用场景

经典使用场景

在文档智能与多模态推理领域，MADQA数据集为评估智能代理在异构文档集合上的推理能力提供了标准化的测试平台。其经典使用场景集中于模拟现实世界中复杂的文档问答任务，要求系统能够处理包含文本、表格、图表等多种模态的PDF文档，通过迭代检索、跨页面证据整合与多模态内容理解，最终生成具有可追溯来源的准确答案。这一场景深刻反映了智能系统在应对非结构化文档信息时所面临的挑战，为推进文档导向的智能代理研究奠定了实证基础。

实际应用

在实际应用层面，MADQA数据集所针对的场景与金融分析、法律文书审查、学术研究辅助以及企业知识库智能查询等高度相关。在这些场景中，专业人员经常需要从大量格式不一、信息分散的报告、合同或研究论文中快速定位并综合关键信息。基于MADQA基准开发的系统，能够赋能智能助手自动化完成跨文档的信息提取与推理任务，显著提升信息处理的效率与准确性，为构建下一代企业级知识管理与决策支持系统提供了技术验证途径。

衍生相关工作

围绕MADQA数据集，已衍生出一系列探索多模态代理推理的经典研究工作。例如，原论文中对比了BM25 MLLM代理、递归语言模型、HEAVEN混合视觉检索以及Gemini/OpenAI文件搜索等多种基线方法。这些工作系统地评估了不同检索增强生成（RAG）策略、多模态融合机制与迭代推理架构在复杂文档问答上的性能。这些探索不仅丰富了多模态代理的技术路线图，也为后续研究如何在异构文档中实现更高效、更可解释的战略性推理指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集