AgentPublic/state-administrations-directory
收藏Hugging Face2026-05-08 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/AgentPublic/state-administrations-directory
下载链接
链接失效反馈官方服务:
资源简介:
法国国家行政目录数据集是一个包含法国国家实体语义就绪、结构化和分块数据的集合,包括组织详情、任务、联系信息以及层级链接。数据集经过处理,每个文本块都使用BAAI/bge-m3嵌入模型向量化,适用于语义搜索和检索任务。
The French State Administrative Directory Dataset is a collection of semantic-ready, structured, and chunked data of French state entities, including organizational details, missions, contact information, and hierarchical links. The dataset has been processed with each text chunk vectorized using the BAAI/bge-m3 embedding model, suitable for semantic search and retrieval tasks.
提供机构:
AgentPublic
搜集汇总
数据集介绍

构建方式
在公共行政数据开放的背景下,法国国家行政机构名录数据集源自法国法律与行政信息局发布的官方开放数据。构建过程首先从原始JSON结构中提取核心字段,包括机构名称、类型、使命描述及联系方式等结构化信息。随后通过合成文本生成技术,将关键信息整合为便于语义处理的文本块,并运用BAAI/bge-m3模型进行向量化嵌入,最终形成包含语义向量的标准化Parquet格式数据集。
特点
该数据集以法国公共行政体系为框架,呈现出多维度结构化特征。每条记录不仅涵盖行政机构的名称、使命与联系方式,更通过地址坐标、负责人列表及层级关系等字段展现组织架构的立体网络。其核心优势在于预生成的语义嵌入向量,使得数据集能够直接支持基于内容的检索与相似性分析,为行政信息查询与知识发现提供了即用型语义基础。
使用方法
面向公共管理研究与智能服务开发,该数据集可通过Hugging Face平台直接加载。使用者需注意嵌入向量以字符串形式存储,需通过JSON解析转换为数值列表后方可应用于向量数据库或检索增强生成流程。数据集配套的教程详细演示了如何将其整合至RAG管道,实现行政信息的语义检索与智能问答功能。
背景与挑战
背景概述
法国国家行政目录数据集(French State Administrations Directory)由法国法律与行政信息局(DILA)于公共数据平台data.gouv.fr发布,并由AgentPublic团队在HuggingFace平台进行结构化处理与向量化封装。该数据集旨在系统化整合法国政府机构的组织架构、职能描述、联系信息及层级关系,为公共部门信息透明化与数字化服务提供标准化数据基础。其核心研究问题聚焦于如何将分散的行政信息转化为语义可检索的结构化知识,以支持智能问答、政策分析及公共服务优化等应用,对推动政府开放数据与人工智能在公共治理领域的融合具有显著影响力。
当前挑战
该数据集致力于解决公共部门信息检索与知识管理的核心挑战,即如何从异构、动态更新的行政数据中实现高效、准确的语义查询与关联分析。在构建过程中,团队需应对原始数据字段不统一、多源信息整合复杂以及实体关系映射困难等难题;同时,为生成适用于检索增强生成(RAG)流程的嵌入表示,需精心设计文本块合成策略,并选用适配多语言场景的BAAI/bge-m3模型进行向量化,以确保嵌入质量与下游任务的有效性。
常用场景
经典使用场景
在公共行政与数字治理领域,该数据集为研究人员和开发者提供了结构化的法国国家行政机构信息,其经典使用场景在于构建语义检索系统。通过预生成的BAAI/bge-m3嵌入向量,用户能够高效实现基于自然语言的机构查询,例如根据使命描述或组织名称进行精准匹配,这极大地优化了政府信息服务的可访问性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,特别是在检索增强生成(RAG)管道构建方面。例如,开源项目MediaTech提供了基于该数据集的RAG教程,演示了如何将嵌入向量与大型语言模型结合,实现动态行政问答。此外,相关成果还拓展至多语言政府数据对齐、跨机构知识图谱构建等前沿方向。
数据集最近研究
最新研究方向
在公共部门数字化转型的浪潮中,法国国家行政目录数据集作为结构化开放数据的典范,正推动着智能政府服务的前沿探索。该数据集通过BAAI/bge-m3模型生成的语义嵌入向量,为基于检索增强生成(RAG)的政务问答系统提供了核心支持,使得公民能够通过自然语言精准查询复杂的行政机构信息。当前研究热点聚焦于利用该数据集的层次化结构和多模态联系字段,开发跨部门协同的决策支持系统,以提升公共政策的透明度和执行效率。这一进展不仅强化了政府数据的可访问性,也为欧洲公共人工智能伦理框架的实践提供了重要案例。
以上内容由遇见数据集搜集并总结生成



