MuDABench

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/Zhanli-Li/MuDABench

下载链接

链接失效反馈

官方服务：

资源简介：

MuDABench是一个面向大规模文档集合的多文档分析问答基准数据集，专注于中国A股市场文档。该数据集包含两个JSON文件（simple.json和complex.json），每个文件包含166个问答样本，以及589个相关的PDF源文件。每个样本包含一个问题、文档级结构化证据的元数据列表、中间支持事实文本和参考最终答案。元数据包括与PDF文件名匹配的文档ID、公司股票代码、年份、文档类型以及结构化值及其语义说明的模式。数据集要求通过聚合多文档信息来回答问题，而非单一文档阅读。该数据集适用于多文档问答任务的研究，特别是在金融领域的应用。数据集采用Apache License 2.0许可证发布。

创建时间：

2026-04-19

原始信息汇总

MuDABench 数据集概述

MuDABench 是一个面向大规模文档集合的多文档分析性问答基准数据集，专注于中国A股市场文档的分析性问答任务。

数据集基本信息

许可证: Apache-2.0
语言: 中文、英文
任务类型: 问答（question-answering）
数据规模: 少于1,000条样本
标签: 问答、多文档、金融、中文

数据内容

数据集包含以下文件：

data/simple.json: 166条问答样本，答案简洁
data/complex.json: 166条问答样本，答案详细且具有分析性
data/pdf/: 589个源PDF文件，供样本引用

每个问答样本均要求跨多个文档聚合信息，而非单独阅读单一来源。

数据格式

每条数据样本为JSON格式，包含以下字段：

question: 问题文本
metadata: 文档级结构化证据列表，每个条目包含：
- id: 与PDF文件名匹配的唯一标识符
- symbol: 公司股票代码
- year: 年份
- doctype: 文档类型
- schema: 解释value_*字段的语义
- value_*: 结构化数值
source_answer: 中间支撑事实（文本）
final_answer: 参考最终答案

不同问题可能使用不同的value_*字段子集。

文件结构

MuDABench/ ├── data/ │ ├── simple.json │ ├── complex.json │ └── pdf/ ├── LICENSE └── README.md

引用方式

如需引用 MuDABench，请引用以下文献：

bibtex @misc{li2026navigatinglargescaledocumentcollections, title={Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA}, author={Zhanli Li and Yixuan Cao and Lvzhou Luo and Ping Luo}, year={2026}, eprint={2604.22239}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.22239}, }

搜集汇总

数据集介绍

构建方式

MuDABench是一个面向大规模文档集合的多文档分析型问答基准数据集，其构建聚焦于中国A股市场的金融文档。数据集包含166个简单样本与166个复杂样本，每个样本均要求模型整合多份源文档中的信息，而非仅依赖单一文档。所有样本的元数据字段（如公司代码、文档年份与类型）均来自于589份PDF源文件，并通过结构化的schema字段明确标注各value_*域的含义，从而为跨文档推理提供可追溯的证据链。

使用方法

使用时，研究人员可直接加载data/simple.json与data/complex.json中的问答对，并借助metadata中的id字段链接至data/pdf/目录下的对应PDF源文件。建议将模型输出与final_answer进行对比评估，同时利用source_answer验证推理过程。由于公开版本不含openai_vectors_id字段，若需扩展实验，可从GitHub仓库获取完整资源，并参考LICENSE文件遵循Apache 2.0许可协议。

背景与挑战

背景概述

MuDABench是由Zhanli Li、Yixuan Cao、Lvzhou Luo和Ping Luo等研究人员于2026年创建的基准数据集，专注于多文档分析型问答任务。在金融领域，尤其是中国A股市场，投资者常需从海量企业财报、公告等文档中综合多源信息以支持决策，然而现有问答基准多局限于单文档或简单检索，难以应对长文档集合中的复杂分析需求。MuDABench填补了这一空白，通过提供332个问答样本（简单与复杂各半）及589份源PDF文档，精准模拟真实场景中的跨文档信息聚合挑战。该数据集不仅推动了自然语言处理在多文档推理领域的研究，也为金融智能分析提供了标准化评估平台，在学术界与工业界产生了广泛影响。

当前挑战

MuDABench所解决的领域核心挑战在于如何从大规模文档集合中高效、准确地提取分散信息并完成分析推理，这一过程远超传统单文档阅读理解，要求模型具备长文本处理、跨文档对齐及逻辑综合能力。具体而言，每个问答样本需整合多个独立文档中的结构化与非结构化证据，但文档间信息可能冗余、矛盾或时序交错，增加了证据筛选与整合的难度。构建过程中，研究团队面临数据标注成本高昂、问题设计需兼顾多样性与领域专精性等挑战，例如确保每个问题必须依赖多文档而非单源线索，并维护结构化元数据与语义一致性。此外，PDF文档格式的异构性（如表格、图表）进一步提升了数据预处理与检索的复杂性，对评估结果的可靠性构成考验。

常用场景

经典使用场景

在金融领域，海量非结构化文档中蕴含关键决策信息，如何高效整合多源文本进行深层分析，始终是自然语言处理研究的热点。MuDABench专为大规模文档集合上的多文档分析型问答设计，其经典使用场景聚焦于检验模型能力：给定一组涉及中国A股市场的公司公告、财务报告等PDF文档，模型需回答需要跨文档信息聚合的复杂问题，如对比多家公司的营收趋势或分析特定行业政策的影响，从而评估模型在长文本理解与逻辑推理方面的表现。

解决学术问题

MuDABench精准回应了现有问答评测多局限于单文档或浅层检索的不足，直面多文档分析型问答这一核心学术难题——即如何从分散且异构的大规模文档中，提取关键证据并完成跨越文档的整合与数值推理。该基准所提供的166组简单样本与166组复杂样本，分别对应简洁答案与详细分析答案，为研究多跳推理、信息融合以及可解释性证据链生成提供了标准化的测试平台，推动该领域从模拟场景迈向真实金融数据验证。

实际应用

在实际应用层面，MuDABench触及金融业中极具价值的自动化分析环节。它能够支持投资研究助手、合规风险监测等系统的开发与评测：例如，分析师可利用基于该基准训练的模型，快速从数千份年报中提取并对比关键财务指标；后台风控系统也可借助其能力，从多份临时公告中交叉验证是否存在潜在的利空或关联交易信号，从而显著提升金融机构在信息洪流中的决策效率与精准度。

数据集最近研究