Double-Bench

Hugging Face2025-08-06 更新2025-08-07 收录

下载链接：

https://huggingface.co/datasets/Episoode/Double-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含multi-hop和single-hop两种配置的数据集。在multi-hop配置中，数据集包含字段如用户ID、问题、答案、参考页面、语言、文档路径、查询类型、来源类型、步骤信息等。在single-hop配置中，数据集包含字段如用户ID、问题、答案、参考页面、来源类型、语言、文档路径、查询类型、文档类型和模态类型等。每种配置都有对应的训练集，分别包含2662和2500个示例。

创建时间：

2025-08-05

原始信息汇总

Double-Bench 数据集概述

数据集基本信息

许可证: 未知
配置:
- multi-hop
- single-hop

数据集配置详情

multi-hop 配置

数据文件:
- 训练集路径: multi-hop/train-*
特征:
- uid: 字符串
- question: 字符串
- answer: 字符串
- reference_page: 整数列表
- language: 字符串
- doc_path: 字符串
- query_type: 字符串
- source_type: 字符串列表
- steps: 包含以下子特征的列表
  - answer0: 字符串
  - answer1: 字符串
  - answer2: 字符串
  - question0: 字符串
  - question1: 字符串
  - question2: 字符串
  - reference_page: 整数列表
- doc_type: 字符串
数据集统计:
- 训练集样本数: 2662
- 训练集大小: 2169604 字节
- 下载大小: 805408 字节
- 数据集总大小: 2169604 字节

single-hop 配置

数据文件:
- 训练集路径: single-hop/train-*
特征:
- uid: 字符串
- question: 字符串
- answer: 字符串
- reference_page: 整数列表
- source_type: 字符串
- language: 字符串
- doc_path: 字符串
- query_type: 字符串
- doc_type: 字符串
- modality: 字符串
数据集统计:
- 训练集样本数: 2500
- 训练集大小: 1248090 字节
- 下载大小: 628256 字节
- 数据集总大小: 1248090 字节

搜集汇总

数据集介绍

构建方式

在文档检索增强生成系统的评估领域，Double-Bench数据集通过精心设计的流程构建而成。该数据集整合了来自四种文档类型和六种语言的3276份文档，总计72880个页面。高质量的单跳和多跳查询通过迭代优化和知识图谱引导的方式生成，确保了问题的清晰度和复杂性。所有证据页面均由专家团队进行人工核验，以保证标注的精确性和完整性，为评估提供可靠的基础。

特点

Double-Bench数据集展现出显著的多语言与多模态特性，涵盖阿拉伯语、中文、英语、法语、日语和西班牙语六种语言，并包含文本、表格等多种模态信息。数据集提供5168个高质量查询，分为单跳和多跳两种类型，其中多跳查询附带详细推理步骤标注。每个数据点均包含唯一标识符、问题、答案、参考页码及文档路径等结构化信息，支持对文档检索与生成能力的全面评估。

使用方法

该数据集专为评估多模态大语言模型在文档检索增强生成任务上的性能而设计。研究人员可使用单跳配置测试模型的直接信息检索能力，或利用多跳配置考察其复杂推理和跨页整合能力。每个样本提供的参考页码和模态类型信息支持细粒度的性能分析。数据集支持端到端评估框架，可用于检验嵌入模型、多模态模型及完整检索生成流程的效能，为系统优化提供实证依据。

背景与挑战

背景概述

随着多模态大语言模型在文档理解与检索增强生成领域的快速发展，对评估系统的需求日益迫切。Double-Bench数据集由研究团队于2025年提出，旨在构建一个大规模、多语言、多模态的基准测试系统。该数据集涵盖阿拉伯语、英语、西班牙语、法语、日语和中文六种语言，包含单跳与多跳查询类型，涉及文本、表格等多种模态。其核心研究问题在于全面评估文档检索增强生成系统的性能，填补了现有基准在多样性和复杂性方面的空白，为相关领域提供了 rigorous 的评估基础。

当前挑战

Double-Bench致力于解决文档检索增强生成系统评估中的多模态与多语言复杂性挑战，包括跨模态信息融合、多跳推理的准确性验证以及多语言语境下的语义一致性。在构建过程中，团队面临高质量查询生成的难题，需通过知识图谱引导的迭代优化确保问题的清晰度与逻辑性；同时，证据页面的 exhaustive 人工验证要求极高精度，以保障标注的完整性与可靠性。此外，多类型文档（如HTML与PDF）的结构化处理与跨语言对齐亦增加了数据集的构建难度。

常用场景

经典使用场景

在文档检索增强生成系统的评估领域，Double-Bench数据集通过其多语言多模态特性，为研究者提供了标准化的测试平台。该数据集包含单跳和多跳两种查询类型，能够全面检验模型在不同复杂度任务中的表现，尤其擅长评估模型对表格、文本等混合模态信息的理解与推理能力。

实际应用

在实际应用层面，Double-Bench支持构建多语言企业知识库系统，能够处理包含表格、文本混合内容的商业文档。其多跳推理能力特别适用于金融报告分析、医疗文献查询等需要多层次信息整合的场景，为跨语言商务智能和学术研究提供了强大的基础支撑。

衍生相关工作

基于该数据集衍生的经典研究包括多模态检索模型优化、跨语言文档对齐算法以及端到端RAG系统架构改进。这些工作显著提升了模型在处理复杂多模态查询时的性能，特别是在解决证据检索完整性和推理链可靠性方面取得了突破性进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集