Deep RAG Benchmark

github2025-10-17 更新2025-10-18 收录

下载链接：

https://github.com/boluo2077/deep-rag-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

基于开源企业知识库GitLab手册的RAG评估数据集，包含250个问题，涵盖单文本、多模态、否定排除、时间参考、上下文指代和多跳推理等多种问题类型，用于测试主流RAG解决方案在深度语义理解方面的能力

A RAG evaluation dataset based on the open-source enterprise knowledge base GitLab Handbook, containing 250 questions covering multiple question types such as single-text, multimodal, negative exclusion, temporal reference, contextual reference, and multi-hop reasoning. It is used to test the deep semantic understanding capabilities of mainstream RAG solutions.

创建时间：

2025-10-15

原始信息汇总

Deep RAG Benchmark 数据集概述

数据集基本信息

数据集名称: Deep RAG Benchmark
数据来源: 基于开源企业知识库 The GitLab handbook（版本 2025/10/11 10:41）
问题总数: 250个
许可证: Apache 2.0
语言支持: 英文、中文

数据集设计目标

解决当前痛点

缺乏基于企业内部知识库的真实基准测试
主流RAG解决方案在多模态和深度语义问题上表现不佳
缺乏对其他RAG解决方案的通用基准

项目亮点

基于真实企业知识库构建
覆盖多种复杂问题类型
包含原始知识库文件，可用于评估大多数RAG解决方案
丰富的元数据便于评估和调优

数据分布详情

问题类型	文件路径	数量	核心挑战
单文本检索	datasets/single_text.jsonl	100	基础语义检索能力测试
多模态检索	datasets/multimodal.jsonl	50	图文混合检索能力测试
否定排除	datasets/negation_exclusion.jsonl	25	否定词识别（not, no）
时间参考	datasets/temporal_reference.jsonl	25	时间推理（today, last quarter）
上下文指代	datasets/contextual_anaphora.jsonl	25	多轮对话指代（it, this）
多跳推理	datasets/multi-hop_reasoning.jsonl	25	链式推理检索（A → B → C）

数据格式规范

json { "id": 0, // 唯一标识符 "type": "Type", // 问题类型 "context": "Previous question", // 对话上下文（仅contextual_anaphora.jsonl使用） "question": "Question", // 测试问题 "think": "Retrieval strategy", // 推理过程 "retrieval": [ // 分步检索路径 { "文件路径0": ["子字符串0", "子字符串1"], "文件路径1": ["子字符串2", "子字符串3"] } ], "answer": "Answer" // 标准答案 }

问题类型详解

📄 单文本检索（100项）

特点: 测试RAG系统的基础检索能力
答案来源: 单个文档中的连续文本

🖼️ 多模态检索（50项）

特点: 测试RAG系统的多模态信息整合能力
答案来源: 必须来自图像，知识库文本中不存在

🚫 否定排除（25项）

特点: 问题包含"not"、"no"、"except"等否定词
挑战: 包含高度相似的干扰关键词，容易误检索

⏰ 时间参考（25项）

特点: 问题包含"today"、"this quarter"、"last month"等相对时间表达式
要求: 需要先解析时间参考，再检索对应数据

💬 上下文指代（25项）

特点: 问题包含"it"、"they"、"this"、"that"等指代表达
要求: 需要结合上下文理解指代对象
挑战: 问题极其简短模糊，无上下文时检索会失败

🔗 多跳推理（25项）

特点: 答案需要2+步的跨文档检索
检索路径: 包含多个文件路径
挑战: 问题不包含最终答案文档的关键词

项目结构

deep-rag-benchmark/ ├── datasets/ # 数据集文件夹 ├── content/handbook/ # GitLab Handbook知识库 ├── images/ # 多模态数据图像 ├── README.md # 英文文档 ├── README.zh-CN.md # 中文文档 └── LICENSE # Apache-2.0开源许可证

重要说明

评估脚本: 需要用户自行编写，当前版本仅提供数据集
答案准确性: 数据为AI生成并人工筛选，但不能保证100%准确
适用场景: 可用于评估大多数RAG解决方案的检索和推理能力

搜集汇总

数据集介绍

构建方式

在检索增强生成技术蓬勃发展的背景下，Deep RAG Benchmark基于开源企业知识库GitLab Handbook构建而成。该数据集采用分层抽样策略，从2025年10月11日版本的知识库中提取六类典型问题场景，通过人工智能生成与人工筛选相结合的方式，确保问题覆盖单文本检索、多模态理解、否定排除、时间推理、上下文指代和多跳推理等核心挑战。每个数据样本均标注了完整的检索路径和标准答案，为评估RAG系统的深层语义理解能力提供了坚实基础。

特点

作为面向企业级知识库的评估基准，该数据集展现出三大核心特征：其问题类型系统覆盖了主流RAG解决方案的典型失效场景，特别是对否定词识别和时间推理等深层语义挑战进行了专门设计；数据集提供原始知识库文件和丰富元数据，支持端到端的检索系统评估；样本设计采用渐进式难度分布，从基础语义匹配到复杂跨文档推理，为模型能力诊断提供了细粒度评估维度。这种多维度的特性设计使其成为衡量RAG系统在实际应用场景中性能的重要标尺。

使用方法

研究人员可通过解析数据集中的JSONL格式文件获取标准化测试样本，每个样本包含问题类型、上下文信息、标准答案及分步检索路径。使用时应首先配置本地知识库环境，将提供的GitLab Handbook文档和图像资源导入检索系统。针对多轮对话场景，需要特别关注上下文指代类问题的历史对话记录；对于多模态问题，则需结合图像解析模块进行联合检索。评估过程中可依据标注的检索路径验证系统推理逻辑，并通过答案精确匹配计算各项任务的性能指标。

背景与挑战

背景概述

Deep RAG Benchmark数据集于2025年由开源社区基于GitLab企业知识库构建，旨在解决检索增强生成技术在实际应用中的评估瓶颈。该数据集以GitLab手册为核心知识源，覆盖单文本检索、多模态理解、否定排除、时序推理、上下文指代和多跳推理六类复杂问题，为RAG系统的深度语义理解能力提供了标准化测试基准。其创新性在于突破了传统检索任务对表层语义的依赖，推动了企业级知识问答系统向认知智能方向发展。

当前挑战

该数据集针对主流RAG方案在否定识别、时序理解、多轮对话和多跳推理等深层语义任务中的性能缺陷，系统性地构建了六大挑战维度。在构建过程中面临多模态数据对齐、时序逻辑标注、跨文档推理链构建等技术难点，同时需确保AI生成答案的准确性与知识库原始信息的完整性。此外，企业级知识库的异构性也为数据标准化处理带来了显著挑战。

常用场景

经典使用场景

在检索增强生成技术领域，Deep RAG Benchmark作为评估框架的基准数据集，其经典应用场景集中于测试RAG系统在复杂语义理解任务中的表现。该数据集通过六类精心设计的问答类型，包括单文本检索、多模态融合、否定排除、时间推理、上下文指代和多跳推理，系统性地检验模型对深层语义关系的解析能力。基于企业级知识库GitLab手册构建的真实场景，使得评估结果具有高度实用价值，为优化检索策略与生成质量提供了标准化测试环境。

实际应用

在企业智能化转型实践中，Deep RAG Benchmark可直接应用于构建高可靠性的知识管理系统。其多模态问答模块能指导开发具备图文交叉检索能力的客服机器人，时序推理测试项可优化财务数据分析系统的时效性处理。针对人力资源场景中的组织架构查询，多跳推理数据集能有效提升对员工职级关系链的解析精度，而否定排除类问题则显著增强了法务合规审查的准确度。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态检索增强架构的设计，如融合视觉与文本特征的混合编码器。在时序推理方向催生了动态时间感知检索模型，通过引入时间编码机制提升对相对时间表达的理解。多跳推理任务推动了图神经网络与检索系统的结合，形成可解释的推理路径生成方法。此外，上下文指代数据集促进了对话状态跟踪技术的发展，使RAG系统具备持续对话的语境维护能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集