RAG Evaluation Dataset
收藏RAG评估数据集与数据集构建工具概述
数据集摘要
一个高质量的问题回答数据集,由Datapizza AI实验室基于《龙与地下城》第五版系统参考文档版本5.2.1构建,专为评估检索增强生成系统设计。
数据集统计:
- 总问题数:56
- 简单级别:25个问题
- 中等级别:31个问题
- 源文档:20个来自D&D 5e SRD的Markdown文件
- 领域:桌面角色扮演游戏规则和机制
数据集级别
简单级别
简单级别提供了一个廉价且可扩展的基线。问题和答案从源文档自动生成,然后经过人工质量检查,适合在RAG评估中建立可复现的基线。
特点:
- 直接、单源检索
- 简单的事实查询
- 机器生成并经过人工验证
- 成本效益高且易于复现和扩展
中等级别
中等级别包含需要更复杂推理的问题和答案,反映了真实评估者的意图,更能诊断检索和推理的差距。
特点:
- 需要多跳推理
- 复杂查询需要跨多个来源综合
- 两种问题类型:
- multi_hop:使用Claude Agent Skills进行多步推理回答
- wide:使用LLM Retriever回答广泛覆盖的问题
数据集结构
每个数据集条目包含以下字段:
json { "id": int, "question": string, "answer": string, "passages": [ { "content": string, "document_path": string, "start_char": int, "end_char": int } ] }
字段描述:
id:问题-答案对的唯一标识符question:问题文本answer:答案文本passages:用于回答问题的相关段落列表
数据集使用
数据集在dataset/qa_sets/目录下提供JSON和Parquet格式:
dataset/qa_sets/easy.jsondataset/qa_sets/medium.json
源文档位于dataset/raw_data/。
数据集也可在HuggingFace获取:https://huggingface.co/datasets/datapizza-ai-lab/DND_SRD_5_2_1
数据集构建工具
从PDF创建高质量QA数据集以评估RAG系统的工具管道。管道将PDF解析为Markdown,生成问题,检索/支持证据,并使用引文合成答案。
项目结构
rag-evaluation/ ├── dataset/ # 预构建的D&D 5e SRD数据集 ├── src/dataset_builder/ # 构建自定义数据集的工具 ├── config/ # 管道配置文件 └── README.md
快速开始
安装
bash git clone <repository-url> cd rag-evaluation uv sync # 或:pip install -e .
环境变量设置
bash export GOOGLE_API_KEY=your_google_api_key export ANTHROPIC_API_KEY=your_anthropic_api_key
运行完整管道
bash uv run python src/dataset_builder/main.py --config config/pipeline.yaml
成本与限制
数据集生成可能很昂贵,特别是使用Claude Skills的中等级别。参考:31个问题的中等数据集生成成本约为100美元。
控制支出的方法:
- 较小的
ids子集,较低的batch_size,保守的max_tokens - 并发上限
- 增量运行
许可证
代码(MIT许可证)
此存储库中的源代码和数据集构建工具根据MIT许可证授权。
数据集(CC BY 4.0)
dataset/目录中的数据集根据知识共享署名4.0国际许可证授权。
引用
bibtex @misc{datapizza_qa_dataset_builder_rag_evaluation, author = {Singh, Raul and Chen, Ling Xuan Emma and Foresi, Francesco}, title = {D&D 5e SRD QA RAG Evaluation Dataset + Dataset Builder}, year = {2025}, url = {https://github.com/datapizza-labs/rag-dataset-builder} }




