MDBench

Name: MDBench
Creator: 密歇根大学计算机科学与工程系、思科研究院
Published: 2025-06-18 03:14:30
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://huggingface.co/ launch/MDBench

下载链接

链接失效反馈

官方服务：

资源简介：

MDBench是一个用于评估大型语言模型在多文档推理任务上的性能的合成数据集。该数据集由密歇根大学计算机科学与工程系和思科研究院合作创建，包含1000个多文档问答示例，其中300个由人工验证，700个通过自动验证。数据集采用了一种创新的合成生成过程，通过在LLM辅助下修改结构化知识来生成具有挑战性的文档集和相应的问答示例。MDBench旨在解决当前多文档推理基准缺乏、难以创建的问题，并为未来的模型评估提供了一种可扩展的解决方案。

MDBench is a synthetic dataset designed to evaluate the performance of large language models (LLMs) on multi-document reasoning tasks. It was co-created by the Department of Computer Science and Engineering at the University of Michigan and Cisco Research, and contains 1000 multi-document question answering (QA) examples, among which 300 are manually verified and 700 are automatically verified. The dataset adopts an innovative synthetic generation process that modifies structured knowledge with the assistance of LLMs to generate challenging document collections and corresponding QA examples. MDBench aims to address the current issues of scarcity and difficulty in creating multi-document reasoning benchmarks, and provides a scalable solution for future model evaluation.

提供机构：

密歇根大学计算机科学与工程系、思科研究院

创建时间：

2025-06-18

搜集汇总

数据集介绍

构建方式

MDBench数据集通过一种创新的合成生成流程构建，旨在评估大型语言模型在多文档推理任务中的表现。该流程首先从结构化知识源（如TabFact数据集中的表格数据）获取种子知识，随后利用GPT-4o等先进模型对知识进行增强，注入复杂的跨文档依赖关系。通过将增强后的结构化知识转化为自然文本形式，生成多文档集及对应的问答对。最后，通过自动化质量验证和人工验证确保数据集的内部一致性和高质量。

特点

MDBench数据集具有多文档推理的独特挑战性，要求模型在多个文档间进行信息综合和推断。其特点包括：1) 通过合成生成确保内容的独特性和新颖性，避免数据污染；2) 引入跨文档知识依赖，增强推理难度；3) 基于真实场景的合成生成，保持数据的现实相关性；4) 通过自动化验证和人工验证确保数据质量。数据集包含1000个多文档问答示例，其中300个经过人工验证，700个通过自动化验证。

使用方法

MDBench数据集适用于评估大型语言模型在多文档推理任务中的表现。使用方法包括：1) 提供多文档集和对应问题，要求模型基于文档内容生成答案；2) 支持零样本和单样本提示设置，可结合链式思考（CoT）提示技术提升模型表现；3) 通过GPT-4o等模型对答案进行评分，计算精确匹配和部分正确性得分。数据集还可用于分析模型在不同推理类型（如多跳、数值、时间推理）上的表现差异。

背景与挑战

背景概述

MDBench是由密歇根大学与思科研究院联合研发的多文档推理评测数据集，于2025年6月在arXiv预印本平台首次公开。该数据集针对大语言模型处理长文本输入时面临的跨文档推理难题，通过创新的知识引导合成生成技术，构建了包含复杂推理依赖的文档集及对应问答对。其核心创新在于将结构化知识转化为自然文本时系统注入多跳推理、数值计算等五大类挑战，解决了传统多文档基准构建成本高昂且易受数据污染影响的痛点。作为首个采用可控合成方法生成的多文档评测基准，MDBench为评估模型在真实场景下的信息整合能力提供了标准化测试平台。

当前挑战

MDBench面临双重挑战：在领域问题层面，需解决模型跨文档信息融合、时序推理、模糊实体消解等复杂认知任务，现有最优模型准确率仅达81%；在构建技术层面，需平衡合成数据的真实性与挑战性，通过知识增强技术引入可控的推理依赖，同时设计自动化质量验证流程确保生成样本的逻辑一致性。具体挑战包括：1)保持合成文本语义连贯性的同时植入跨文档推理线索；2)构建自洽的Oracle一致性校验机制过滤低质量样本；3)避免结构化知识到自然语言转换过程中的信息失真。

常用场景

经典使用场景

MDBench数据集专为评估大型语言模型（LLM）在多文档推理任务中的表现而设计。其经典使用场景包括模型在跨文档信息合成、复杂依赖关系解析及多步骤推理能力上的系统性测试。通过合成生成的文档集和对应问答对，研究者能够精确控制推理难度，例如要求模型从分散在多个体育赛事报道中提取球队赛季胜负记录，或从不同金融报告中整合季度营收数据。

衍生相关工作

该数据集催生了多项创新研究：1）基于表格-文档转换的推理能力解构分析（Wang et al., 2024），揭示了表面形式对模型性能的影响；2）多文档提示工程技术（Schnitzler et al., 2024）通过文档分界符优化提升22%的推理准确率；3）神经符号系统MuSR（Sprague et al., 2023）扩展了其生成方法至医疗文档推理领域。相关工作已形成从基准构建到应用落地的完整技术链条。

数据集最近研究