MuDABench
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/Zhanli-Li/MuDABench
下载链接
链接失效反馈官方服务:
资源简介:
MuDABench是一个面向大规模文档集合的多文档分析问答基准数据集,专注于中国A股市场文档。该数据集包含两个JSON文件(simple.json和complex.json),每个文件包含166个问答样本,以及589个相关的PDF源文件。每个样本包含一个问题、文档级结构化证据的元数据列表、中间支持事实文本和参考最终答案。元数据包括与PDF文件名匹配的文档ID、公司股票代码、年份、文档类型以及结构化值及其语义说明的模式。数据集要求通过聚合多文档信息来回答问题,而非单一文档阅读。该数据集适用于多文档问答任务的研究,特别是在金融领域的应用。数据集采用Apache License 2.0许可证发布。
创建时间:
2026-04-19
原始信息汇总
MuDABench 数据集概述
MuDABench 是一个面向大规模文档集合的多文档分析性问答基准数据集,专注于中国A股市场文档的分析性问答任务。
数据集基本信息
- 许可证: Apache-2.0
- 语言: 中文、英文
- 任务类型: 问答(question-answering)
- 数据规模: 少于1,000条样本
- 标签: 问答、多文档、金融、中文
数据内容
数据集包含以下文件:
data/simple.json: 166条问答样本,答案简洁data/complex.json: 166条问答样本,答案详细且具有分析性data/pdf/: 589个源PDF文件,供样本引用
每个问答样本均要求跨多个文档聚合信息,而非单独阅读单一来源。
数据格式
每条数据样本为JSON格式,包含以下字段:
- question: 问题文本
- metadata: 文档级结构化证据列表,每个条目包含:
id: 与PDF文件名匹配的唯一标识符symbol: 公司股票代码year: 年份doctype: 文档类型schema: 解释value_*字段的语义value_*: 结构化数值
- source_answer: 中间支撑事实(文本)
- final_answer: 参考最终答案
不同问题可能使用不同的value_*字段子集。
文件结构
MuDABench/ ├── data/ │ ├── simple.json │ ├── complex.json │ └── pdf/ ├── LICENSE └── README.md
引用方式
如需引用 MuDABench,请引用以下文献:
bibtex @misc{li2026navigatinglargescaledocumentcollections, title={Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA}, author={Zhanli Li and Yixuan Cao and Lvzhou Luo and Ping Luo}, year={2026}, eprint={2604.22239}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.22239}, }
搜集汇总
数据集介绍

构建方式
MuDABench是一个面向大规模文档集合的多文档分析型问答基准数据集,其构建聚焦于中国A股市场的金融文档。数据集包含166个简单样本与166个复杂样本,每个样本均要求模型整合多份源文档中的信息,而非仅依赖单一文档。所有样本的元数据字段(如公司代码、文档年份与类型)均来自于589份PDF源文件,并通过结构化的schema字段明确标注各value_*域的含义,从而为跨文档推理提供可追溯的证据链。
使用方法
使用时,研究人员可直接加载data/simple.json与data/complex.json中的问答对,并借助metadata中的id字段链接至data/pdf/目录下的对应PDF源文件。建议将模型输出与final_answer进行对比评估,同时利用source_answer验证推理过程。由于公开版本不含openai_vectors_id字段,若需扩展实验,可从GitHub仓库获取完整资源,并参考LICENSE文件遵循Apache 2.0许可协议。
背景与挑战
背景概述
MuDABench是由Zhanli Li、Yixuan Cao、Lvzhou Luo和Ping Luo等研究人员于2026年创建的基准数据集,专注于多文档分析型问答任务。在金融领域,尤其是中国A股市场,投资者常需从海量企业财报、公告等文档中综合多源信息以支持决策,然而现有问答基准多局限于单文档或简单检索,难以应对长文档集合中的复杂分析需求。MuDABench填补了这一空白,通过提供332个问答样本(简单与复杂各半)及589份源PDF文档,精准模拟真实场景中的跨文档信息聚合挑战。该数据集不仅推动了自然语言处理在多文档推理领域的研究,也为金融智能分析提供了标准化评估平台,在学术界与工业界产生了广泛影响。
当前挑战
MuDABench所解决的领域核心挑战在于如何从大规模文档集合中高效、准确地提取分散信息并完成分析推理,这一过程远超传统单文档阅读理解,要求模型具备长文本处理、跨文档对齐及逻辑综合能力。具体而言,每个问答样本需整合多个独立文档中的结构化与非结构化证据,但文档间信息可能冗余、矛盾或时序交错,增加了证据筛选与整合的难度。构建过程中,研究团队面临数据标注成本高昂、问题设计需兼顾多样性与领域专精性等挑战,例如确保每个问题必须依赖多文档而非单源线索,并维护结构化元数据与语义一致性。此外,PDF文档格式的异构性(如表格、图表)进一步提升了数据预处理与检索的复杂性,对评估结果的可靠性构成考验。
常用场景
经典使用场景
在金融领域,海量非结构化文档中蕴含关键决策信息,如何高效整合多源文本进行深层分析,始终是自然语言处理研究的热点。MuDABench专为大规模文档集合上的多文档分析型问答设计,其经典使用场景聚焦于检验模型能力:给定一组涉及中国A股市场的公司公告、财务报告等PDF文档,模型需回答需要跨文档信息聚合的复杂问题,如对比多家公司的营收趋势或分析特定行业政策的影响,从而评估模型在长文本理解与逻辑推理方面的表现。
解决学术问题
MuDABench精准回应了现有问答评测多局限于单文档或浅层检索的不足,直面多文档分析型问答这一核心学术难题——即如何从分散且异构的大规模文档中,提取关键证据并完成跨越文档的整合与数值推理。该基准所提供的166组简单样本与166组复杂样本,分别对应简洁答案与详细分析答案,为研究多跳推理、信息融合以及可解释性证据链生成提供了标准化的测试平台,推动该领域从模拟场景迈向真实金融数据验证。
实际应用
在实际应用层面,MuDABench触及金融业中极具价值的自动化分析环节。它能够支持投资研究助手、合规风险监测等系统的开发与评测:例如,分析师可利用基于该基准训练的模型,快速从数千份年报中提取并对比关键财务指标;后台风控系统也可借助其能力,从多份临时公告中交叉验证是否存在潜在的利空或关联交易信号,从而显著提升金融机构在信息洪流中的决策效率与精准度。
数据集最近研究
最新研究方向
在金融领域大规模文档集合的背景下,MuDABench聚焦于多文档分析式问答的前沿研究,尤其针对中国A股市场文档的复杂信息聚合需求。该基准通过跨越大量PDF源文件的问答样本,推动模型从单文档理解向跨文档推理的范式转变,近期研究方向主要围绕如何提升模型在整合结构化与非结构化证据时的分析精度与可解释性。
以上内容由遇见数据集搜集并总结生成



