MADQA
收藏MADQA数据集概述
数据集基本信息
- 数据集名称: MADQA (Multimodal Agentic Document QA)
- 发布机构: OxRML
- 数据集地址: https://huggingface.co/datasets/OxRML/MADQA
- 论文地址: https://arxiv.org/abs/2603.12180
- Leaderboard地址: https://huggingface.co/spaces/Snowflake/MADQA-Leaderboard
- 许可证: Apache 2.0
数据集描述
MADQA是一个包含2,250个人工编写问题的基准测试集,这些问题基于800份异构PDF文档。该数据集旨在评估智能体在文档集合上的推理能力。
核心特点
- 问题数量: 2,250个
- 文档基础: 800份异构PDF文档
- 任务类型: 多模态智能体文档问答
- 评估重点: 智能体在文档集合上的推理能力
评估指标
- 准确率 (Accuracy)
- ANLS*
- 语义准确率 (Semantic Accuracy)
- 页面F1分数 (Page F1)
- Kuiper
数据集加载方式
python from datasets import load_dataset dataset = load_dataset("OxRML/MADQA")
评估方法
bash pip install -r eval/requirements.txt python eval/evaluate.py results.jsonl python eval/evaluate.py results.jsonl --semantic # 使用LLM评判 python eval/evaluate.py m1.jsonl m2.jsonl --compare # 比较不同系统
引用格式
bibtex @misc{borchmann2026madqa, title={Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections}, author={Łukasz Borchmann and Jordy Van Landeghem and Michał Turski and Shreyansh Padarha and Ryan Othniel Kearns and Adam Mahdi and Niels Rogge and Clémentine Fourrier and Siwei Han and Huaxiu Yao and Artemis Llabrés and Yiming Xu and Dimosthenis Karatzas and Hao Zhang and Anupam Datta}, year={2026}, eprint={2603.12180}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.12180}, }




