ndl-core-rag-index

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/theodi/ndl-core-rag-index

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个FAISS索引和相关的块元数据，用于支持在[ndl-core-corpus](https://huggingface.co/datasets/theodi/ndl-core-corpus)上的检索增强生成（RAG）应用。数据集使用sentence-transformers/all-MiniLM-L6-v2模型，维度为384，采用L2归一化和余弦相似性度量。分块策略为基于字符的递归分块，块大小为800字符，重叠100字符。FAISS索引和块元数据文件严格对齐，确保相似性搜索结果可以可靠地映射回原始源记录。此外，数据集还包含一个LanceDB搜索索引，支持按主题搜索和下载NDL Core数据集。

创建时间：

2026-01-02

原始信息汇总

NDL Core RAG Index 数据集概述

基本信息

数据集名称: NDL Core RAG Index
语言: 英语 (en)、威尔士语 (cy)
标签: Rag
显示名称: NDL Core RAG Index
规模分类: 100M < n < 1B

核心内容与用途

本数据集包含一个FAISS索引和相关的文本块元数据，旨在支持对 ndl-core-corpus 数据集进行检索增强生成（RAG）应用。

技术规格

索引模型与参数

嵌入模型: sentence-transformers/all-MiniLM-L6-v2
向量维度: 384
归一化方法: L2
相似度计算: 余弦相似度（内积）

文本分块策略

策略: 基于字符的递归分块
块大小: 800个字符
重叠大小: 100个字符

索引与元数据对齐

FAISS索引文件 (index.faiss) 与块元数据文件 (data/ndl_core_rag_index.parquet) 严格保持索引对齐。

这意味着 index.faiss 中的第 n 个嵌入向量与 data/ndl_core_rag_index.parquet 中的第 n 行完全对应。
检索到的FAISS索引可直接用于在parquet文件中查找文本块内容、来源标识符和元数据。
这保证了从相似性搜索结果到其原始源记录具有确定性和可靠的映射关系。

扩展功能：LanceDB搜索索引

已添加基于LanceDB的搜索索引，支持按主题搜索和下载NDL Core数据集。
该索引使用相同的 all-MiniLM-L6-v2 模型。
嵌入向量基于标题、描述和文本前500个字符的拼接生成。
LanceDB索引包含用于检索的完整记录。

源数据

文本块引用的源记录位于数据集：ndl-core-corpus 完整的、机器可读的配置信息请参见 rag_config.json 文件。

应用示例

该索引被用于一个实时的检索增强聊天应用：

应用名称: NDL Core RAG Chat
访问地址: https://huggingface.co/spaces/theodi/ndl-core-rag-chat
演示功能:
- 对英国公共部门数据进行语义检索。
- 对源记录进行确定性引用。
- 使用已发布的FAISS索引和元数据进行端到端RAG。

搜集汇总

数据集介绍

构建方式

在构建NDL Core RAG Index数据集时，采用了递归字符分块策略，将原始文本分割为800字符的片段，并在相邻片段间设置100字符的重叠区域，以保持上下文连贯性。嵌入向量通过sentence-transformers/all-MiniLM-L6-v2模型生成，维度为384，并经过L2归一化处理，以余弦相似度作为检索依据。FAISS索引与分块元数据文件严格对齐，确保每个嵌入向量与其对应的文本块、来源标识及元数据行一一映射，为检索增强生成提供了可靠的数据基础。

特点

该数据集的核心特点在于其严格的对齐机制，FAISS索引与Parquet格式的元数据文件在结构上完全同步，使得检索结果能够直接映射到原始数据源，保障了引用的准确性与可追溯性。数据集涵盖英语和威尔士语内容，规模介于1亿至10亿参数之间，专为公共部门数据语义检索而优化。此外，数据集还集成了基于LanceDB的搜索索引，通过结合标题、描述及文本前缀生成嵌入，支持按主题检索与完整记录获取，进一步扩展了其应用场景。

使用方法

使用该数据集时，开发者可直接加载FAISS索引与关联的元数据文件，通过余弦相似度进行高效语义检索，获取相关文本块及其来源信息。数据集适用于构建检索增强生成系统，如在聊天应用中集成实时数据查询功能，确保生成内容基于权威公共数据并支持精确引用。用户可参考提供的示例应用，探索其在公共部门数据交互中的实际部署，或依据rag_config.json中的配置灵活调整检索参数，以满足特定领域的需求。

背景与挑战

背景概述

随着信息检索与自然语言处理技术的深度融合，检索增强生成（RAG）范式已成为处理大规模文本语料、提升生成模型事实准确性的关键路径。NDL Core RAG Index数据集由The Open Data Institute（ODI）构建，旨在为英国公共部门数据提供高效、可追溯的语义检索支持。该数据集基于ndl-core-corpus语料，采用sentence-transformers/all-MiniLM-L6-v2模型生成嵌入向量，并通过FAISS索引与元数据严格对齐，确保检索结果与原始文本块之间的确定性映射。其设计聚焦于解决公共数据开放访问中的信息发现与可信引用问题，为政策分析、公共服务等领域的知识驱动应用奠定了坚实基础。

当前挑战

在公共部门数据检索领域，核心挑战在于如何从异构、非结构化的文档中精准提取语义信息，并保障检索结果的可解释性与来源可追溯性。NDL Core RAG Index针对这一需求，需克服语义相似性计算在高维空间中的效率瓶颈，以及文本分块过程中上下文连贯性的保持问题。数据集构建过程中，递归字符分块策略虽能适应多样文本格式，但需平衡块大小与重叠区域，以避免信息碎片化或冗余；同时，索引与元数据的严格对齐要求精密的数据管道设计，任何偏差均可能导致检索映射失效，增加系统可靠性风险。

常用场景

经典使用场景

在信息检索与知识增强生成领域，NDL Core RAG Index数据集为研究人员提供了一个标准化的语义检索基准。该数据集通过FAISS索引与对齐的元数据，支持对英国公共部门文档进行高效的向量相似性搜索，常用于构建检索增强生成（RAG）系统的核心检索模块。其经典应用场景包括在对话系统中集成外部知识库，实现基于语义匹配的精准信息抽取，从而提升生成内容的准确性与可信度。

衍生相关工作

围绕该数据集衍生的经典工作包括基于LanceDB的多模态检索扩展，以及针对长文档分块策略的优化研究。部分研究利用其对齐机制开发了端到端的可追溯生成系统，进一步探索了检索结果与生成文本间的因果关联。此外，该索引的标准化格式也催生了跨语言RAG评估基准的构建，为比较不同嵌入模型在公共领域数据上的性能提供了重要参照体系。

数据集最近研究