five

MDBench

收藏
arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://huggingface.co/ launch/MDBench
下载链接
链接失效反馈
官方服务:
资源简介:
MDBench是一个用于评估大型语言模型在多文档推理任务上的性能的合成数据集。该数据集由密歇根大学计算机科学与工程系和思科研究院合作创建,包含1000个多文档问答示例,其中300个由人工验证,700个通过自动验证。数据集采用了一种创新的合成生成过程,通过在LLM辅助下修改结构化知识来生成具有挑战性的文档集和相应的问答示例。MDBench旨在解决当前多文档推理基准缺乏、难以创建的问题,并为未来的模型评估提供了一种可扩展的解决方案。

MDBench is a synthetic dataset designed to evaluate the performance of large language models (LLMs) on multi-document reasoning tasks. It was co-created by the Department of Computer Science and Engineering at the University of Michigan and Cisco Research, and contains 1000 multi-document question answering (QA) examples, among which 300 are manually verified and 700 are automatically verified. The dataset adopts an innovative synthetic generation process that modifies structured knowledge with the assistance of LLMs to generate challenging document collections and corresponding QA examples. MDBench aims to address the current issues of scarcity and difficulty in creating multi-document reasoning benchmarks, and provides a scalable solution for future model evaluation.
提供机构:
密歇根大学计算机科学与工程系、思科研究院
创建时间:
2025-06-18
搜集汇总
数据集介绍
main_image_url
构建方式
MDBench数据集通过一种创新的合成生成流程构建,旨在评估大型语言模型在多文档推理任务中的表现。该流程首先从结构化知识源(如TabFact数据集中的表格数据)获取种子知识,随后利用GPT-4o等先进模型对知识进行增强,注入复杂的跨文档依赖关系。通过将增强后的结构化知识转化为自然文本形式,生成多文档集及对应的问答对。最后,通过自动化质量验证和人工验证确保数据集的内部一致性和高质量。
特点
MDBench数据集具有多文档推理的独特挑战性,要求模型在多个文档间进行信息综合和推断。其特点包括:1) 通过合成生成确保内容的独特性和新颖性,避免数据污染;2) 引入跨文档知识依赖,增强推理难度;3) 基于真实场景的合成生成,保持数据的现实相关性;4) 通过自动化验证和人工验证确保数据质量。数据集包含1000个多文档问答示例,其中300个经过人工验证,700个通过自动化验证。
使用方法
MDBench数据集适用于评估大型语言模型在多文档推理任务中的表现。使用方法包括:1) 提供多文档集和对应问题,要求模型基于文档内容生成答案;2) 支持零样本和单样本提示设置,可结合链式思考(CoT)提示技术提升模型表现;3) 通过GPT-4o等模型对答案进行评分,计算精确匹配和部分正确性得分。数据集还可用于分析模型在不同推理类型(如多跳、数值、时间推理)上的表现差异。
背景与挑战
背景概述
MDBench是由密歇根大学与思科研究院联合研发的多文档推理评测数据集,于2025年6月在arXiv预印本平台首次公开。该数据集针对大语言模型处理长文本输入时面临的跨文档推理难题,通过创新的知识引导合成生成技术,构建了包含复杂推理依赖的文档集及对应问答对。其核心创新在于将结构化知识转化为自然文本时系统注入多跳推理、数值计算等五大类挑战,解决了传统多文档基准构建成本高昂且易受数据污染影响的痛点。作为首个采用可控合成方法生成的多文档评测基准,MDBench为评估模型在真实场景下的信息整合能力提供了标准化测试平台。
当前挑战
MDBench面临双重挑战:在领域问题层面,需解决模型跨文档信息融合、时序推理、模糊实体消解等复杂认知任务,现有最优模型准确率仅达81%;在构建技术层面,需平衡合成数据的真实性与挑战性,通过知识增强技术引入可控的推理依赖,同时设计自动化质量验证流程确保生成样本的逻辑一致性。具体挑战包括:1)保持合成文本语义连贯性的同时植入跨文档推理线索;2)构建自洽的Oracle一致性校验机制过滤低质量样本;3)避免结构化知识到自然语言转换过程中的信息失真。
常用场景
经典使用场景
MDBench数据集专为评估大型语言模型(LLM)在多文档推理任务中的表现而设计。其经典使用场景包括模型在跨文档信息合成、复杂依赖关系解析及多步骤推理能力上的系统性测试。通过合成生成的文档集和对应问答对,研究者能够精确控制推理难度,例如要求模型从分散在多个体育赛事报道中提取球队赛季胜负记录,或从不同金融报告中整合季度营收数据。
衍生相关工作
该数据集催生了多项创新研究:1)基于表格-文档转换的推理能力解构分析(Wang et al., 2024),揭示了表面形式对模型性能的影响;2)多文档提示工程技术(Schnitzler et al., 2024)通过文档分界符优化提升22%的推理准确率;3)神经符号系统MuSR(Sprague et al., 2023)扩展了其生成方法至医疗文档推理领域。相关工作已形成从基准构建到应用落地的完整技术链条。
数据集最近研究
最新研究方向
MDBench数据集在自然语言处理领域的最新研究方向主要集中在多文档推理能力的评估与提升。随着大型语言模型(LLMs)在处理长上下文输入方面的能力不断增强,多文档推理成为研究热点。MDBench通过合成生成过程,高效地创建具有挑战性的文档集和对应的问答示例,为评估模型在多文档环境下的推理能力提供了新工具。该数据集的前沿研究包括探索模型在跨文档知识依赖、数值推理、时间推理等方面的表现,以及如何通过提示技术(如思维链)提升模型性能。此外,MDBench的研究还关注数据污染问题和评估框架的动态适应性,为未来模型的评估和发展提供了重要参考。
相关研究论文
  • 1
    MDBench: A Synthetic Multi-Document Reasoning Benchmark Generated with Knowledge Guidance密歇根大学计算机科学与工程系、思科研究院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作