ndl-core-rag-index

Hugging Face2026-01-09 更新2026-01-10 收录

下载链接：

https://huggingface.co/datasets/hkir-dev/ndl-core-rag-index

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个FAISS索引和相关的块元数据，用于支持在ndl-core-corpus上的检索增强生成（RAG）用例。数据集使用了sentence-transformers/all-MiniLM-L6-v2模型，维度为384，采用L2归一化和余弦相似性度量。分块策略为基于字符的递归分块，块大小为800个字符，重叠100个字符。FAISS索引和块元数据文件严格对齐，确保相似性搜索结果可以可靠地映射回原始源记录。此外，数据集还添加了LanceDB搜索索引，支持按主题搜索和下载NDL Core数据集。

创建时间：

2026-01-02

原始信息汇总

NDL Core RAG Index 数据集概述

基本信息

数据集名称: NDL Core RAG Index
语言: 英语 (en)、威尔士语 (cy)
标签: Rag
显示名称: NDL Core RAG Index
规模分类: 100M<n<1B

核心内容与用途

该数据集包含一个FAISS索引和相关的文本块元数据，旨在支持对ndl-core-corpus数据集进行检索增强生成（RAG）应用。

技术规格

索引构建

嵌入模型: sentence-transformers/all-MiniLM-L6-v2
向量维度: 384
归一化方法: L2
相似度计算: 余弦相似度（内积）

文本分块策略

策略: 基于字符的递归分块
块大小: 800个字符
重叠大小: 100个字符

索引与元数据对齐

FAISS索引文件 (index.faiss) 与块元数据文件 (data/ndl_core_rag_index.parquet) 严格索引对齐。

这意味着 index.faiss 中的第 n 个嵌入向量精确对应 data/ndl_core_rag_index.parquet 中的第 n 行。
检索到的FAISS索引可直接用于在parquet文件中查找块文本、来源标识符和元数据。
这保证了从相似性搜索结果到其原始来源记录的可确定且可靠的映射。

扩展功能：LanceDB搜索索引

已添加基于LanceDB的搜索索引，以支持按主题搜索和下载NDL Core数据集。

该索引使用相同的 all-MiniLM-L6-v2 模型。
嵌入向量基于标题、描述和文本前500个字符的拼接生成。
LanceDB索引包含用于检索的完整记录。

源数据

文本块引用的记录位于数据集：ndl-core-corpus 完整的、机器可读的配置请参见 rag_config.json 文件。

应用示例

该索引用于一个实时的检索增强聊天应用：

应用名称: NDL Core RAG Chat
应用地址: https://huggingface.co/spaces/hkir-dev/ndl-core-rag-chat
演示功能:
- 对英国公共部门数据进行语义检索。
- 对来源记录进行确定性引用。
- 使用已发布的FAISS索引和元数据进行端到端RAG。

搜集汇总

数据集介绍

构建方式

在构建NDL Core RAG Index数据集时，采用了递归字符分块策略，将原始文本分割为800字符的片段，并设置100字符的重叠区域以保持上下文连贯性。嵌入向量通过sentence-transformers/all-MiniLM-L6-v2模型生成，维度为384，并经过L2归一化处理以优化余弦相似度计算。FAISS索引与元数据文件严格对齐，确保每个嵌入向量与对应的文本块、来源标识及元数据行一一映射，为检索任务提供了可靠的结构基础。

使用方法

使用本数据集时，可加载FAISS索引进行相似性搜索，并利用对齐的元数据文件解析检索结果，获取文本块及其来源信息。数据集适用于构建检索增强生成系统，如示例中的NDL Core RAG Chat应用，支持对英国公共部门数据的语义检索与确定性引用。用户还可通过LanceDB索引按主题探索数据集，或结合rag_config.json中的配置信息，灵活集成到自定义的RAG工作流程中，实现端到端的信息检索与生成任务。

背景与挑战

背景概述

在信息检索与自然语言处理领域，检索增强生成（RAG）技术通过结合密集向量检索与大型语言模型，有效提升了生成式人工智能的准确性与可解释性。NDL Core RAG Index数据集由hkir-dev团队构建，旨在为英国公共部门数据提供高效的语义检索支持。该数据集基于ndl-core-corpus语料，采用sentence-transformers/all-MiniLM-L6-v2模型生成384维嵌入向量，并通过FAISS索引实现快速相似性搜索。其核心研究问题聚焦于如何在大规模文本数据中实现精准、可溯源的语义检索，以推动政府数据开放与智能问答系统的发展，对公共信息服务和知识管理领域具有重要实践意义。

当前挑战

该数据集致力于解决检索增强生成中语义检索的准确性与可靠性挑战，具体包括如何在多语言（如英语、威尔士语）公共文本中保持上下文一致性，以及如何确保检索结果与原始源数据的严格对齐。在构建过程中，团队面临了技术性难题：递归字符分块策略需平衡块大小与重叠区域，以优化信息完整性；同时，维护FAISS索引与Parquet元数据间的严格索引对齐，要求精细的工程实现，以避免检索映射错误。此外，集成LanceDB索引以支持按主题搜索，进一步增加了系统复杂度，需确保多索引间协同工作的高效性与稳定性。

常用场景

经典使用场景

在信息检索与自然语言处理领域，ndl-core-rag-index数据集以其精心构建的FAISS索引和严格的索引-元数据对齐机制，为检索增强生成（RAG）任务提供了经典的应用范例。该数据集通过sentence-transformers/all-MiniLM-L6-v2模型生成384维嵌入向量，并采用余弦相似度进行语义搜索，使得研究者能够高效地从英国公共部门数据中检索相关文本片段。其递归字符分块策略确保了文本的连贯性，而索引与元数据的严格对齐则保障了检索结果的可追溯性，为构建可靠的知识增强系统奠定了坚实基础。

解决学术问题

该数据集有效应对了大规模文本检索中语义匹配精度与可解释性之间的平衡难题。通过将高维嵌入向量与结构化元数据精确关联，它解决了传统检索系统中结果与源文本脱节的问题，确保了每次检索都能直接映射到原始记录。这一设计不仅提升了RAG框架的可靠性，还为学术研究提供了可复现的实验基础，推动了检索增强生成在开放领域问答、事实核查等任务中的方法论进展，增强了模型输出的可信度与透明度。

实际应用

在实际部署中，ndl-core-rag-index已成功应用于英国公共部门数据的实时交互系统，如NDL Core RAG Chat演示平台。该系统利用该索引实现语义检索，用户可通过自然语言查询获取精准的政府文档信息，并直接查看引用的源记录。这种应用不仅提升了公共信息的可访问性，还为政策分析、法律咨询等专业场景提供了高效的知识支持，展示了RAG技术在增强大型语言模型事实准确性方面的实用价值。

数据集最近研究