RAG Evaluation Dataset

github2025-11-12 更新2025-11-14 收录

下载链接：

https://github.com/datapizza-labs/rag-dataset-builder

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量的问题回答数据集，由Datapizza AI实验室基于龙与地下城第五版系统参考文档5.2.1版本构建，专门用于评估检索增强生成系统。数据集包含56个问题-答案对，分为简单层级和中等层级，涵盖桌面角色扮演游戏规则和机制领域。

A high-quality question-answering dataset constructed by Datapizza AI Lab based on the 5.2.1 version of the Dungeons & Dragons Fifth Edition System Reference Document, specifically designed for evaluating retrieval-augmented generation systems. The dataset includes 56 question-answer pairs, categorized into simple and intermediate difficulty levels, covering the domain of tabletop role-playing game rules and mechanics.

创建时间：

2025-11-12

原始信息汇总

RAG评估数据集与数据集构建工具概述

数据集摘要

一个高质量的问题回答数据集，由Datapizza AI实验室基于《龙与地下城》第五版系统参考文档版本5.2.1构建，专为评估检索增强生成系统设计。

数据集统计：

总问题数：56
- 简单级别：25个问题
- 中等级别：31个问题
源文档：20个来自D&D 5e SRD的Markdown文件
领域：桌面角色扮演游戏规则和机制

数据集级别

简单级别

简单级别提供了一个廉价且可扩展的基线。问题和答案从源文档自动生成，然后经过人工质量检查，适合在RAG评估中建立可复现的基线。

特点：

直接、单源检索
简单的事实查询
机器生成并经过人工验证
成本效益高且易于复现和扩展

中等级别

中等级别包含需要更复杂推理的问题和答案，反映了真实评估者的意图，更能诊断检索和推理的差距。

特点：

需要多跳推理
复杂查询需要跨多个来源综合
两种问题类型：
- multi_hop：使用Claude Agent Skills进行多步推理回答
- wide：使用LLM Retriever回答广泛覆盖的问题

数据集结构

每个数据集条目包含以下字段：

json { "id": int, "question": string, "answer": string, "passages": [ { "content": string, "document_path": string, "start_char": int, "end_char": int } ] }

字段描述：

id：问题-答案对的唯一标识符
question：问题文本
answer：答案文本
passages：用于回答问题的相关段落列表

数据集使用

数据集在dataset/qa_sets/目录下提供JSON和Parquet格式：

dataset/qa_sets/easy.json
dataset/qa_sets/medium.json

源文档位于dataset/raw_data/。

数据集也可在HuggingFace获取：https://huggingface.co/datasets/datapizza-ai-lab/DND_SRD_5_2_1

数据集构建工具

从PDF创建高质量QA数据集以评估RAG系统的工具管道。管道将PDF解析为Markdown，生成问题，检索/支持证据，并使用引文合成答案。

项目结构

rag-evaluation/ ├── dataset/ # 预构建的D&D 5e SRD数据集 ├── src/dataset_builder/ # 构建自定义数据集的工具 ├── config/ # 管道配置文件 └── README.md

快速开始

安装

bash git clone <repository-url> cd rag-evaluation uv sync # 或：pip install -e .

环境变量设置

bash export GOOGLE_API_KEY=your_google_api_key export ANTHROPIC_API_KEY=your_anthropic_api_key

运行完整管道

bash uv run python src/dataset_builder/main.py --config config/pipeline.yaml

成本与限制

数据集生成可能很昂贵，特别是使用Claude Skills的中等级别。参考：31个问题的中等数据集生成成本约为100美元。

控制支出的方法：

较小的ids子集，较低的batch_size，保守的max_tokens
并发上限
增量运行

许可证

代码（MIT许可证）

此存储库中的源代码和数据集构建工具根据MIT许可证授权。

数据集（CC BY 4.0）

dataset/目录中的数据集根据知识共享署名4.0国际许可证授权。

引用

bibtex @misc{datapizza_qa_dataset_builder_rag_evaluation, author = {Singh, Raul and Chen, Ling Xuan Emma and Foresi, Francesco}, title = {D&D 5e SRD QA RAG Evaluation Dataset + Dataset Builder}, year = {2025}, url = {https://github.com/datapizza-labs/rag-dataset-builder} }

搜集汇总

数据集介绍

构建方式

在检索增强生成系统评估领域，该数据集采用分层构建策略，以龙与地下城第五版系统参考文档为知识源。基础层级通过自动化流程生成问题答案对，并经过人工质量校验，确保单源检索任务的可靠性；进阶层级则融合多跳推理与跨文档综合能力，借助Claude智能体与语言模型检索技术构建复杂问答对，完整覆盖从直接事实查询到深层逻辑推理的评估维度。

特点

该数据集具备鲜明的层级化特征，基础层级聚焦低成本可复现的评估基准，包含25个直接检索型问题；进阶层级则通过31个需多源信息整合的复杂问题，精准模拟真实场景中的检索推理缺陷。每个数据单元均包含问题文本、标准答案及带字符定位的原文片段，其结构化设计既支持检索性能的细粒度分析，又能有效衡量生成答案的准确性。

使用方法

研究者可通过HuggingFace平台或本地文件系统获取数据集资源，基础与进阶层级分别以JSON和Parquet格式存储。使用前需配置Google与Anthropic的API密钥以激活完整功能，通过修改流水线配置文件可自定义生成参数。数据集构建工具链支持从PDF解析到问答对生成的全流程操作，特别提供中阶数据后处理模块以实现格式标准化，为不同复杂度的检索增强生成系统评估提供灵活支撑。

背景与挑战

背景概述

在检索增强生成（RAG）系统快速发展的背景下，Datapizza AI实验室于2025年推出了基于《龙与地下城》第五版系统参考文档的RAG评估数据集。该数据集由Raul Singh、Ling Xuan Emma Chen和Francesco Foresi等研究人员主导构建，旨在通过56个高质量问答对解决RAG系统在复杂知识检索与多步推理任务中的性能评估问题。其创新性地采用分级设计，包含基础级与中级两个层级，分别对应直接检索与多源推理场景，为自然语言处理领域的模型评估提供了标准化基准。

当前挑战

该数据集主要应对RAG系统在复杂领域知识理解与多跳推理能力评估的挑战，具体体现为模型需从分散的规则文本中提取并整合信息以回答综合性问题。在构建过程中，中级数据集因依赖Claude Skills的智能体能力与长上下文处理，产生了高昂的计算成本，31个问题的生成费用约达100美元。同时，多源证据的精准对齐与标准化输出格式转换也构成了技术实施的重要难点。

常用场景

经典使用场景

在检索增强生成系统的评估领域，该数据集通过龙与地下城规则文档构建的问答对，为研究者提供了标准化的测试基准。其分层设计涵盖从简单事实检索到复杂多步推理的多样化场景，能够全面检验RAG系统在文档理解、信息定位和答案合成等方面的性能表现。这种结构化评估框架已成为验证检索与生成模块协同效率的经典范式。

衍生相关工作

该数据集催生了多项创新性研究，包括基于其分层结构设计的动态检索评估框架、结合多跳推理的端到端训练方法，以及针对证据溯源的可解释性分析技术。相关成果进一步拓展到跨模态检索增强系统评估领域，形成了以可复现性为核心的RAG评估方法论体系。

数据集最近研究