Deep RAG Benchmark
收藏Deep RAG Benchmark 数据集概述
数据集基本信息
- 数据集名称: Deep RAG Benchmark
- 数据来源: 基于开源企业知识库 The GitLab handbook(版本 2025/10/11 10:41)
- 问题总数: 250个
- 许可证: Apache 2.0
- 语言支持: 英文、中文
数据集设计目标
解决当前痛点
- 缺乏基于企业内部知识库的真实基准测试
- 主流RAG解决方案在多模态和深度语义问题上表现不佳
- 缺乏对其他RAG解决方案的通用基准
项目亮点
- 基于真实企业知识库构建
- 覆盖多种复杂问题类型
- 包含原始知识库文件,可用于评估大多数RAG解决方案
- 丰富的元数据便于评估和调优
数据分布详情
| 问题类型 | 文件路径 | 数量 | 核心挑战 |
|---|---|---|---|
| 单文本检索 | datasets/single_text.jsonl | 100 | 基础语义检索能力测试 |
| 多模态检索 | datasets/multimodal.jsonl | 50 | 图文混合检索能力测试 |
| 否定排除 | datasets/negation_exclusion.jsonl | 25 | 否定词识别(not, no) |
| 时间参考 | datasets/temporal_reference.jsonl | 25 | 时间推理(today, last quarter) |
| 上下文指代 | datasets/contextual_anaphora.jsonl | 25 | 多轮对话指代(it, this) |
| 多跳推理 | datasets/multi-hop_reasoning.jsonl | 25 | 链式推理检索(A → B → C) |
数据格式规范
json { "id": 0, // 唯一标识符 "type": "Type", // 问题类型 "context": "Previous question", // 对话上下文(仅contextual_anaphora.jsonl使用) "question": "Question", // 测试问题 "think": "Retrieval strategy", // 推理过程 "retrieval": [ // 分步检索路径 { "文件路径0": ["子字符串0", "子字符串1"], "文件路径1": ["子字符串2", "子字符串3"] } ], "answer": "Answer" // 标准答案 }
问题类型详解
📄 单文本检索(100项)
- 特点: 测试RAG系统的基础检索能力
- 答案来源: 单个文档中的连续文本
🖼️ 多模态检索(50项)
- 特点: 测试RAG系统的多模态信息整合能力
- 答案来源: 必须来自图像,知识库文本中不存在
🚫 否定排除(25项)
- 特点: 问题包含"not"、"no"、"except"等否定词
- 挑战: 包含高度相似的干扰关键词,容易误检索
⏰ 时间参考(25项)
- 特点: 问题包含"today"、"this quarter"、"last month"等相对时间表达式
- 要求: 需要先解析时间参考,再检索对应数据
💬 上下文指代(25项)
- 特点: 问题包含"it"、"they"、"this"、"that"等指代表达
- 要求: 需要结合上下文理解指代对象
- 挑战: 问题极其简短模糊,无上下文时检索会失败
🔗 多跳推理(25项)
- 特点: 答案需要2+步的跨文档检索
- 检索路径: 包含多个文件路径
- 挑战: 问题不包含最终答案文档的关键词
项目结构
deep-rag-benchmark/ ├── datasets/ # 数据集文件夹 ├── content/handbook/ # GitLab Handbook知识库 ├── images/ # 多模态数据图像 ├── README.md # 英文文档 ├── README.zh-CN.md # 中文文档 └── LICENSE # Apache-2.0开源许可证
重要说明
- 评估脚本: 需要用户自行编写,当前版本仅提供数据集
- 答案准确性: 数据为AI生成并人工筛选,但不能保证100%准确
- 适用场景: 可用于评估大多数RAG解决方案的检索和推理能力




