Double-Bench

github2025-08-06 更新2025-08-08 收录

下载链接：

https://github.com/Episoode/Double-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Double-Bench是一个新的大规模、多语言和多模态评估系统，能够对文档RAG系统中的每个组件进行细粒度评估。它包含3,276个文档（72,880页）和5,168个单跳和多跳查询，涵盖6种语言和4种文档类型。所有查询都基于详尽扫描的证据页面，并由人类专家验证以确保质量和完整性。

Double-Bench is a novel large-scale, multilingual and multimodal evaluation system that enables fine-grained assessment of each component in document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single-hop and multi-hop queries, covering 6 languages and 4 document types. All queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure quality and completeness.

创建时间：

2025-07-31

原始信息汇总

Double-Bench 数据集概述

🚀 数据集简介

Double-Bench 是一个用于评估多模态大型语言模型（MLLMs）在检索增强生成（RAG）系统中表现的大规模、多语言、多模态评估系统。该数据集旨在提供对文档RAG系统中每个组件的细粒度评估，包含3,276个文档（72,880页）和5,168个单跳和多跳查询，覆盖6种语言和4种文档类型。

💡 数据集亮点

大规模、多模态与多语言：包含3,276个文档（72,880页），覆盖4种文档类型和6种语言。
高质量查询与标注：5,168个高质量单跳和多跳查询，经过迭代优化和知识图谱引导生成，所有证据页面由人类专家验证。
全面评估与深入洞察：对9种嵌入模型、4种MLLMs和4种高级文档RAG框架进行了广泛实验，揭示了关键瓶颈。

🔍 数据集结构

数据集存储在./Double_Bench.目录下，包含以下信息：

单跳查询示例

uid：唯一标识符。
question：查询文本。
answer：参考答案。
reference_page：证据页面列表。
source_type：答案来源的模态类型。
language：查询和文档的语言。
doc_path：源文档存储路径。
query_type：查询类型。
doc_type：源文档类型。

多跳查询示例

uid：唯一标识符。
question：最终复杂查询。
answer：最终参考答案。
reference_page：所有证据页面列表。
language：查询和文档的语言。
doc_path：源文档存储路径。
query_type：查询类型。
source_type：答案来源的模态类型列表。
doc_type：源文档类型。
steps：推理链中的中间步骤列表，每个步骤包含中间问题、答案和证据页面。

📄 数据示例

单跳查询

json { "uid": "0962", "question": "What does the historical population data suggest about demographic changes in Yorkton from 1901 to 2021?", "answer": "The historical population data indicates a significant increase in Yorktons population from 700 in 1901 to 16,280 in 2021, reflecting substantial demographic growth over the 120-year span.", "reference_page": [3,4,12], "source_type": "table", "language": "en", "doc_path": "docs/English/0786", "query_type": "Specific Information Retrieval", "doc_type": "HTML Pages" }

多跳查询

json { "uid": "1110", "question": "What significantly reduces the incidence and severity of the condition that the drug evaluated in the pilot evaluation for treating hot flashes has been shown to reduce in phase II trials by 75% to 90% in clinical trials?", "answer": "Hormone therapy", "reference_page": [12,15,29,31,34,35,36,40,41,42], "language": "en", "doc_path": "docs/English/1527", "query_type": "Specific Information Retrieval", "source_type": ["text","table"], "steps": [ { "question0": "What drug was evaluated in the pilot evaluation for treating hot flashes?", "answer0": "Gabapentin", "reference_page": [15,29] }, { "question1": "What condition has Gabapentin been shown to reduce in phase II trials?", "answer1": "Hot flushes", "reference_page": [29,36,40,42] }, { "question2": "What significantly reduces the incidence and severity of hot flushes by 75% to 90% in clinical trials?", "answer2": "Hormone therapy", "reference_page": [12,31,35,36,41] } ], "doc_type": "PDF" }

搜集汇总

数据集介绍

构建方式

在文档检索增强生成系统快速发展的背景下，Double-Bench通过多维度协作构建了严谨的评估基准。研究团队采集了3,276份真实文档（72,880页）覆盖4种文档类型和6种语言，采用知识图谱引导的迭代方法生成5,168个单跳/多跳查询。所有证据页面均经过专家团队穷尽式扫描验证，并通过动态更新机制保障数据时效性，有效解决了合成数据标签不完整的问题。这种构建方式既保留了真实场景的复杂性，又通过人工校验确保了数据质量。

使用方法

研究人员可通过Hugging Face平台直接加载数据集，其结构化JSON格式确保了易用性。每个数据点包含唯一标识符、问题文本、参考答案等核心字段，多跳查询额外提供分步推理链。使用时应根据doc_path字段定位源文档，结合reference_page验证检索效果，通过query_type区分任务类型。对于系统级评估，建议分别测试嵌入模型在证据检索、大语言模型在答案生成等环节的表现，并参考提供的9个基线模型结果进行对比分析。

背景与挑战

背景概述

Double-Bench数据集由研究团队于2024年提出，旨在解决多模态大型语言模型（MLLMs）在检索增强生成（RAG）系统中的评估瓶颈问题。该数据集由3,276份多语言文档（涵盖72,880页）和5,168个单跳与多跳查询构成，覆盖6种语言和4种文档类型。其核心研究目标是为复杂文档理解任务提供细粒度评估基准，通过人工专家验证的完整证据标注，弥补了现有基准依赖合成数据且标注不完整的缺陷。作为完全开源项目，Double-Bench为文档RAG系统的性能优化与瓶颈分析建立了严谨的实证基础。

当前挑战

该数据集针对文档RAG系统面临两大核心挑战：领域层面，现有评估方法难以捕捉真实场景中多模态检索与多跳推理的复合瓶颈，例如嵌入模型对跨模态证据的关联能力不足、MLLMs存在的过度自信困境；构建层面，需攻克多语言文档对齐、人工证据页穷举标注的质量控制，以及动态更新机制防止数据污染等技术难题。数据集通过知识图谱引导的查询生成和专家级证据验证，首次实现了对文档结构、语言多样性和推理深度的三维度系统性评估。

常用场景

经典使用场景

在文档检索增强生成（RAG）系统的研究中，Double-Bench数据集被广泛用于评估多模态大语言模型（MLLMs）的复杂文档理解能力。其大规模、多语言和多模态的特性使其成为测试模型在单跳和多跳查询中表现的首选工具。研究人员利用该数据集验证模型在跨文档类型和语言环境下的信息检索和生成能力，从而推动文档RAG系统的优化与创新。

解决学术问题

Double-Bench数据集解决了当前文档RAG系统评估中存在的关键问题，如合成数据的不完整性和真实场景的缺失。通过提供高质量、经过专家验证的查询和证据标注，该数据集为研究者提供了可靠的基准，帮助识别模型在信息检索和生成中的瓶颈，例如“过度自信困境”。其多语言和多模态的设计进一步拓展了研究的广度和深度。

实际应用

在实际应用中，Double-Bench数据集被用于开发和优化商业文档处理系统，如法律文件分析、医疗报告生成和多语言客户支持工具。其丰富的文档类型和语言覆盖能力使其成为企业测试和部署RAG系统的理想选择，显著提升了复杂文档理解的准确性和效率。

数据集最近研究