five

Deep RAG Benchmark

收藏
github2025-10-17 更新2025-10-18 收录
下载链接:
https://github.com/boluo2077/deep-rag-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
基于开源企业知识库GitLab手册的RAG评估数据集,包含250个问题,涵盖单文本、多模态、否定排除、时间参考、上下文指代和多跳推理等多种问题类型,用于测试主流RAG解决方案在深度语义理解方面的能力

A RAG evaluation dataset based on the open-source enterprise knowledge base GitLab Handbook, containing 250 questions covering multiple question types such as single-text, multimodal, negative exclusion, temporal reference, contextual reference, and multi-hop reasoning. It is used to test the deep semantic understanding capabilities of mainstream RAG solutions.
创建时间:
2025-10-15
原始信息汇总

Deep RAG Benchmark 数据集概述

数据集基本信息

  • 数据集名称: Deep RAG Benchmark
  • 数据来源: 基于开源企业知识库 The GitLab handbook(版本 2025/10/11 10:41)
  • 问题总数: 250个
  • 许可证: Apache 2.0
  • 语言支持: 英文、中文

数据集设计目标

解决当前痛点

  • 缺乏基于企业内部知识库的真实基准测试
  • 主流RAG解决方案在多模态和深度语义问题上表现不佳
  • 缺乏对其他RAG解决方案的通用基准

项目亮点

  • 基于真实企业知识库构建
  • 覆盖多种复杂问题类型
  • 包含原始知识库文件,可用于评估大多数RAG解决方案
  • 丰富的元数据便于评估和调优

数据分布详情

问题类型 文件路径 数量 核心挑战
单文本检索 datasets/single_text.jsonl 100 基础语义检索能力测试
多模态检索 datasets/multimodal.jsonl 50 图文混合检索能力测试
否定排除 datasets/negation_exclusion.jsonl 25 否定词识别(not, no)
时间参考 datasets/temporal_reference.jsonl 25 时间推理(today, last quarter)
上下文指代 datasets/contextual_anaphora.jsonl 25 多轮对话指代(it, this)
多跳推理 datasets/multi-hop_reasoning.jsonl 25 链式推理检索(A → B → C)

数据格式规范

json { "id": 0, // 唯一标识符 "type": "Type", // 问题类型 "context": "Previous question", // 对话上下文(仅contextual_anaphora.jsonl使用) "question": "Question", // 测试问题 "think": "Retrieval strategy", // 推理过程 "retrieval": [ // 分步检索路径 { "文件路径0": ["子字符串0", "子字符串1"], "文件路径1": ["子字符串2", "子字符串3"] } ], "answer": "Answer" // 标准答案 }

问题类型详解

📄 单文本检索(100项)

  • 特点: 测试RAG系统的基础检索能力
  • 答案来源: 单个文档中的连续文本

🖼️ 多模态检索(50项)

  • 特点: 测试RAG系统的多模态信息整合能力
  • 答案来源: 必须来自图像,知识库文本中不存在

🚫 否定排除(25项)

  • 特点: 问题包含"not"、"no"、"except"等否定词
  • 挑战: 包含高度相似的干扰关键词,容易误检索

⏰ 时间参考(25项)

  • 特点: 问题包含"today"、"this quarter"、"last month"等相对时间表达式
  • 要求: 需要先解析时间参考,再检索对应数据

💬 上下文指代(25项)

  • 特点: 问题包含"it"、"they"、"this"、"that"等指代表达
  • 要求: 需要结合上下文理解指代对象
  • 挑战: 问题极其简短模糊,无上下文时检索会失败

🔗 多跳推理(25项)

  • 特点: 答案需要2+步的跨文档检索
  • 检索路径: 包含多个文件路径
  • 挑战: 问题不包含最终答案文档的关键词

项目结构

deep-rag-benchmark/ ├── datasets/ # 数据集文件夹 ├── content/handbook/ # GitLab Handbook知识库 ├── images/ # 多模态数据图像 ├── README.md # 英文文档 ├── README.zh-CN.md # 中文文档 └── LICENSE # Apache-2.0开源许可证

重要说明

  • 评估脚本: 需要用户自行编写,当前版本仅提供数据集
  • 答案准确性: 数据为AI生成并人工筛选,但不能保证100%准确
  • 适用场景: 可用于评估大多数RAG解决方案的检索和推理能力
搜集汇总
数据集介绍
main_image_url
构建方式
在检索增强生成技术蓬勃发展的背景下,Deep RAG Benchmark基于开源企业知识库GitLab Handbook构建而成。该数据集采用分层抽样策略,从2025年10月11日版本的知识库中提取六类典型问题场景,通过人工智能生成与人工筛选相结合的方式,确保问题覆盖单文本检索、多模态理解、否定排除、时间推理、上下文指代和多跳推理等核心挑战。每个数据样本均标注了完整的检索路径和标准答案,为评估RAG系统的深层语义理解能力提供了坚实基础。
特点
作为面向企业级知识库的评估基准,该数据集展现出三大核心特征:其问题类型系统覆盖了主流RAG解决方案的典型失效场景,特别是对否定词识别和时间推理等深层语义挑战进行了专门设计;数据集提供原始知识库文件和丰富元数据,支持端到端的检索系统评估;样本设计采用渐进式难度分布,从基础语义匹配到复杂跨文档推理,为模型能力诊断提供了细粒度评估维度。这种多维度的特性设计使其成为衡量RAG系统在实际应用场景中性能的重要标尺。
使用方法
研究人员可通过解析数据集中的JSONL格式文件获取标准化测试样本,每个样本包含问题类型、上下文信息、标准答案及分步检索路径。使用时应首先配置本地知识库环境,将提供的GitLab Handbook文档和图像资源导入检索系统。针对多轮对话场景,需要特别关注上下文指代类问题的历史对话记录;对于多模态问题,则需结合图像解析模块进行联合检索。评估过程中可依据标注的检索路径验证系统推理逻辑,并通过答案精确匹配计算各项任务的性能指标。
背景与挑战
背景概述
Deep RAG Benchmark数据集于2025年由开源社区基于GitLab企业知识库构建,旨在解决检索增强生成技术在实际应用中的评估瓶颈。该数据集以GitLab手册为核心知识源,覆盖单文本检索、多模态理解、否定排除、时序推理、上下文指代和多跳推理六类复杂问题,为RAG系统的深度语义理解能力提供了标准化测试基准。其创新性在于突破了传统检索任务对表层语义的依赖,推动了企业级知识问答系统向认知智能方向发展。
当前挑战
该数据集针对主流RAG方案在否定识别、时序理解、多轮对话和多跳推理等深层语义任务中的性能缺陷,系统性地构建了六大挑战维度。在构建过程中面临多模态数据对齐、时序逻辑标注、跨文档推理链构建等技术难点,同时需确保AI生成答案的准确性与知识库原始信息的完整性。此外,企业级知识库的异构性也为数据标准化处理带来了显著挑战。
常用场景
经典使用场景
在检索增强生成技术领域,Deep RAG Benchmark作为评估框架的基准数据集,其经典应用场景集中于测试RAG系统在复杂语义理解任务中的表现。该数据集通过六类精心设计的问答类型,包括单文本检索、多模态融合、否定排除、时间推理、上下文指代和多跳推理,系统性地检验模型对深层语义关系的解析能力。基于企业级知识库GitLab手册构建的真实场景,使得评估结果具有高度实用价值,为优化检索策略与生成质量提供了标准化测试环境。
实际应用
在企业智能化转型实践中,Deep RAG Benchmark可直接应用于构建高可靠性的知识管理系统。其多模态问答模块能指导开发具备图文交叉检索能力的客服机器人,时序推理测试项可优化财务数据分析系统的时效性处理。针对人力资源场景中的组织架构查询,多跳推理数据集能有效提升对员工职级关系链的解析精度,而否定排除类问题则显著增强了法务合规审查的准确度。
衍生相关工作
基于该数据集衍生的经典研究包括跨模态检索增强架构的设计,如融合视觉与文本特征的混合编码器。在时序推理方向催生了动态时间感知检索模型,通过引入时间编码机制提升对相对时间表达的理解。多跳推理任务推动了图神经网络与检索系统的结合,形成可解释的推理路径生成方法。此外,上下文指代数据集促进了对话状态跟踪技术的发展,使RAG系统具备持续对话的语境维护能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作