leann-rag-evaluation-data

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/LEANN-RAG/leann-rag-evaluation-data

下载链接

链接失效反馈

官方服务：

资源简介：

LEANN-RAG评估数据集包含了运行LEANN-RAG项目回忆评估脚本所需的数据。该数据集主要分为三个部分：预构建的LEANN索引、地面真实数据和查询数据。预构建索引包括DPR数据集和RPJ-Wiki数据集的索引，地面真实数据包含DPR和RPJ-Wiki数据集的映射查询到原始段落ID的文件，查询数据包含用于评估的自然问题查询。

创建时间：

2025-07-13

原始信息汇总

LEANN-RAG评估数据集概述

数据集基本信息

许可证: MIT
用途: 用于运行LEANN-RAG项目的召回评估脚本

数据集组成

1. 预构建的LEANN索引

dpr/: DPR数据集的预构建索引
rpj_wiki/: RPJ-Wiki数据集的预构建索引
构建工具: 使用leann-core库创建
用途: 为LeannSearcher提供必要索引

2. 基准真值数据

位置: ground_truth/
内容文件: flat_results_nq_k3.json
数据来源: 来自Natural Questions基准测试的原始段落ID映射
评估模型: Contriever模型

3. 查询数据

位置: queries/
内容文件: nq_open.jsonl
数据来源: Natural Questions查询集

数据使用方法

安装依赖库: bash pip install huggingface-hub
下载数据集: python from huggingface_hub import snapshot_download snapshot_download( repo_id="LEANN-RAG/leann-rag-evaluation-data", repo_type="dataset", local_dir="data" )
- 保存路径: 本地data文件夹
- 结构保留: 保持原始仓库结构
评估脚本: 需配合主LEANN-RAG Space中的评估脚本使用

搜集汇总

数据集介绍

构建方式

在信息检索领域，高效准确的检索增强生成系统评估至关重要。该数据集通过系统化整合三个核心组件构建而成：采用`leann-core`库预构建的DPR和RPJ-Wiki索引文件，确保检索系统的基准性能；基于Natural Questions基准标注的真实答案数据，通过Contriever模型严格验证；以及标准化的自然语言查询集合，为评估提供统一输入标准。这种模块化构建方式既保证了评估的全面性，又确保了各组件间的协同性。

特点

该数据集最显著的特点是提供开箱即用的评估生态。预构建索引免除了用户繁琐的索引创建过程，直接支持LEANN检索器的调用；经过模型验证的真实答案数据为召回率评估提供可靠参照；标准查询集则确保不同系统间的评估可比性。数据集采用层次化目录结构设计，各组件间逻辑清晰，便于研究者快速定位所需资源。

使用方法

实践应用中，用户可通过`huggingface-hub`库实现数据集的便捷获取。安装依赖后，简单调用`snapshot_download`方法即可完整下载符合预设目录结构的数据资源。数据集与LEANN-RAG主项目的评估脚本天然兼容，用户仅需指定本地存储路径即可开展端到端的检索性能评估。这种即插即用的设计极大降低了研究者的技术接入门槛。

背景与挑战

背景概述

LEANN-RAG评估数据集是为验证LEANN-RAG项目检索增强生成系统性能而构建的专用基准工具，由研究团队于2023年通过HuggingFace平台公开发布。该数据集整合了DPR和RPJ-Wiki两大知识库的预构建索引，并采用自然问题基准中的查询语句作为评估基础，其核心价值在于为稠密段落检索模型的召回率评估提供标准化测试环境。通过引入Contriever模型生成的标注数据，该数据集显著提升了检索系统在开放域问答任务中的可验证性，为知识密集型NLP系统的性能优化提供了重要参照。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决开放域问答系统中检索精度与召回率的平衡难题，特别是针对自然问题中复杂语义查询与知识库段落的多粒度匹配问题；在构建过程中，处理多源异构数据（DPR与RPJ-Wiki的索引结构差异）的标准化整合、以及确保Contriever模型生成的标注数据与原始自然问题基准的兼容性成为关键难点。此外，预构建索引的动态更新机制与评估查询的语义覆盖完备性仍需持续优化。

常用场景

经典使用场景

在信息检索与知识图谱领域，LEANN-RAG评估数据集为研究者和开发者提供了一个标准化的测试平台，主要用于评估检索增强生成（RAG）系统的召回性能。该数据集整合了DPR和RPJ-Wiki两大权威索引，结合Natural Questions基准的真实查询数据，使得用户能够精确测量模型在开放域问答任务中的表现。其结构化设计特别适合对比不同检索算法的效果，例如通过Contriever模型验证段落检索的准确性。

实际应用

在实际应用中，该数据集被广泛用于优化企业级知识库的智能问答系统。科技公司利用其预构建索引快速部署原型系统，通过RPJ-Wiki等专业领域数据验证垂直搜索的可行性。教育机构则借助标准化查询集评估教学辅助机器人的知识检索能力，显著降低了构建评估管道的工程成本。

衍生相关工作

基于该数据集衍生的研究推动了稠密检索技术的创新，例如《面向多跳问答的层次化索引构建》等论文改进了LEANN核心库的索引策略。微软研究院提出的HyDE框架亦参考其评估方法，将生成式检索与传统向量搜索相结合。这些工作共同促进了RAG系统在医疗、法律等专业领域的落地应用。

以上内容由遇见数据集搜集并总结生成