Embeddings_RAG_ANEEL

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/joaopauloCand/Embeddings_RAG_ANEEL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为一个专注于巴西国家电力能源局（ANEEL）的调度、决议和技术说明的RAG（检索增强生成）管道设计的。数据集包含了从原始文本到向量数据库的多个处理阶段的数据。具体包括：原始数据（如PDF文档和JSON元数据）、处理后的数据（如解析后的JSON和分块文本）、以及两种不同的向量数据库（分别使用Google的Gemini嵌入模型和开源的BAAI/bge-m3模型生成）。数据集旨在支持研究人员和工程师从管道的任何阶段开始项目，适用于自然语言处理和信息检索任务。数据集由UFG的NLP研究小组开发，作为学习和研究项目的一部分。

创建时间：

2026-04-25

原始信息汇总

数据集概述：Pipeline RAG ANEEL

该数据集是为 ANEEL（巴西国家电力局） 的调度、决议和技术说明文档构建的 RAG（检索增强生成）流水线 所需的数据制品集合。数据覆盖了从原始文本处理到向量数据库查询的完整机器学习生命周期。

文件清单与说明

数据集按流水线执行顺序组织，包含以下文件：

文件	大小	描述与作用
`base_de_teste_json.zip`	~ 130 kB	原始数据（元数据）：仅包含部分 JSON 文件，用于测试脚本连接与响应。
`aneel_pdfs.zip`	~ 1.33 GB	原始数据（物理文档）：从 ANEEL 下载的原始物理文档集合，用于文本提取（OCR/解析）阶段。
`json_parsed.zip`	~ 124 MB	已处理数据：经过解析后富集的 JSON 文件，包含清洗后的元数据及文档完整文本（含 Markdown 格式表格）。是分块阶段的起点。
`chunks.zip`	~ 70.5 MB	分块数据：以 `.jsonl` 格式存储的文本块，每个块大小为 1024 个字符，重叠 154 个字符。
`banco_chroma.zip`	~ 4.58 GB	向量数据库（Gemini）：使用 Google API（`models/gemini-embedding-001`）生成的完整 ChromaDB 索引，适用于云端部署。
`banco_chroma_bgem3.zip`	~ 2.35 GB	向量数据库（开源）：使用多语言 SOTA 模型 BAAI/bge-m3 生成的完整 ChromaDB 索引，适用于 100% 本地运行及 GPU 加速。
`dados_grupo_estudos.zip`	~ 2.35 GB	向量数据库（开源）：所有数据提取的来源，用于解析时的元数据收集及爬取。

关键说明

两个向量数据库的大小差异（4.58 GB vs 2.35 GB）源于 Google 模型与 BAAI/bge-m3 模型生成的数学坐标维度不同。
该项目由 UFG（戈亚斯联邦大学）NLP 研究小组开发，作为 NLP 学习与研究项目。
外部仓库链接：
- 最终 API 仓库：https://github.com/kelvin-de-oliveira/api-rag
- 流水线仓库：https://github.com/joaopauloCand/Desafio_RAG_NLP

许可信息

数据集许可状态为：未知。

搜集汇总

数据集介绍

构建方式

该数据集围绕巴西国家电力能源局（ANEEL）的调度决议与技术公告构建，完整记录了从原始数据采集到向量数据库生成的机器学习全生命周期。数据集的构建始于原始PDF文档的物理归档与元数据提取，随后经过OCR与解析阶段，将非结构化文本转化为包含Markdown格式表格的富JSON结构。在此基础上，文本被严格切割为1024字符长度、重叠154字符的片段，最终分别通过Google Gemini嵌入API与开源多语言模型BAAI/bge-m3生成向量，并存入ChromaDB向量数据库，形成两套面向不同部署场景的索引体系。

特点

该数据集最具特色之处在于其多粒度、多模态的数据组织方式。它不仅涵盖了从原始文件到结构化元数据、再到文本分块与向量索引的完整数据链，还提供了分别基于云端私有模型与开源本地模型的两套向量数据库，兼顾了不同计算环境下的部署灵活性。此外，数据集支持用户从任意流水线环节切入实验，无论是直接使用原始PDF、解析后的JSON、分块文件，还是已索引的向量数据库，均提供了完整的文件字典与大小信息。这种层级分明的数据设计，极大降低了研究与工程复现的门槛。

使用方法

用户可根据研究需求选择不同的数据入口：若需从头训练或替换文本处理器，可从`aneel_pdfs.zip`与`base_de_teste_json.zip`入手，运行解析脚本生成JSON；若专注于分块策略优化，可直接使用`json_parsed.zip`中的结构化文本；若需直接进行语义检索，可加载`chunks.zip`中的JSONL文件。对于需要立即部署检索增强生成（RAG）系统的场景，可直接加载`banco_chroma.zip`（Gemini嵌入）或`banco_chroma_bgem3.zip`（BAAI/bge-m3嵌入）至ChromaDB客户端，配合官方提供的API仓库与流水线仓库快速搭建应用。

背景与挑战

背景概述

该数据集名为Embeddings_RAG_ANEEL，诞生于巴西戈亚斯联邦大学（UFG）自然语言处理研究小组的学习与研究项目之中。其核心研究聚焦于构建面向巴西国家电力局（ANEEL）技术文件、决议及调度指令的检索增强生成（RAG）流水线。数据集系统性地涵盖了从原始文本处理到向量数据库构建的完整机器学习生命周期，通过提供多阶段处理产物（包括原始PDF、解析后的JSON、文本分块以及基于Google Gemini与开源模型BAAI/bge-m3的向量数据库），显著降低了NLP领域研究者从零构建领域知识问答系统的门槛。该数据集不仅推动了特定监管领域的信息检索技术落地，还为跨语言、多模态的文档理解与生成研究提供了宝贵的基准资源。

当前挑战

该数据集所解决的领域问题聚焦于电力监管文档的智能检索与生成这一专业细分场景，传统关键词检索难以应对ANEEL庞大非结构化PDF语料中表格、条款等复杂语义的精准捕获。构建过程中面临多重挑战：首先，原始PDF的物理获取与OCR解析构成数据瓶颈，1.33GB文档需保障高精度文本提取与元数据清洗；其次，分块策略需平衡语义完整性与检索粒度，实验确定的1024字符块长与154字符重叠阈值依赖大量调优；最后，跨向量维度的兼容性难题凸显——Google模型与bge-m3分别产出不同维度的嵌入，致使下游检索链路需适配异构特征空间，这考验了技术选型的鲁棒性。

常用场景

经典使用场景

该数据集专为检索增强生成（RAG）流水线设计，聚焦于巴西国家电力能源局（ANEEL）的官方公文、决议与技术说明的智能化处理。其核心使用场景涵盖从原始PDF文档的物理采集、OCR文本提取与解析、结构化元数据清洗、文本分块（chunking）到向量数据库构建的全流程。研究者可据此探索端到端的RAG系统搭建，尤其适合在复杂的电力监管文本领域验证文档解析、语义分块与多语言嵌入模型的协同效果。

解决学术问题

在学术层面，该数据集解决了非英语、高专业性的监管文档在RAG框架中的适配难题。传统RAG研究多基于英文通用语料，而ANEEL数据集提供了葡萄牙语电力法规文本的稀缺资源，推动了多语言嵌入模型（如BAAI/bge-m3）与专有模型（如Google Gemini）在低资源场景下的对比研究。它使学者能系统评估不同分块策略、向量维度与检索精度之间的权衡，为低资源领域RAG系统的稳健性设计提供了实证基础。

衍生相关工作

围绕该数据集衍生的工作主要涉及RAG流水线的系统化优化与接口封装。已公开的相关项目包括完整的API服务端点（api-rag）和端到端管道工程（Desafio_RAG_NLP），这些工作将数据集中的PDF解析、分片策略与ChromaDB索引集成为了可复用的工具链。未来可拓展的方向包括：比较不同分片重叠率对检索召回率的影响，以及探索在移动端或边缘设备上部署压缩后的bge-m3向量库，进一步降低对GPU资源的依赖。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集