local-administrations-directory
收藏Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/AgentPublic/local-administrations-directory
下载链接
链接失效反馈官方服务:
资源简介:
法国地方政府机构目录数据集是一个包含法国地方公共实体信息的语义就绪、结构化和分块的数据集,提供了组织的详细资料、任务描述、联系方式以及层级结构信息。
法国地方政府机构目录数据集是一个包含法国地方公共实体信息的语义就绪、结构化和分块的数据集,提供了组织的详细资料、任务描述、联系方式以及层级结构信息。
创建时间:
2025-07-25
原始信息汇总
🇫🇷 法国地方政府目录数据集概述
📌 数据集基本信息
- 语言: 法语 (fr)
- 标签: 法国、公共部门、嵌入、目录、开放数据、政府、etalab
- 数据集名称: French Local Administrations Directory
- 数据规模: 10K<n<100K
- 许可证: etalab-2.0
🗂️ 数据集内容
- 格式: Parquet
- 列名及描述:
chunk_id: 块的唯一标识符types: 行政实体类型name: 组织或服务名称mission_description: 实体任务描述addresses: 地址对象列表(街道、邮政编码、城市等)phone_numbers: 电话号码列表mails: 联系电子邮件列表urls: 相关URL列表social_medias: 社交媒体账户mobile_applications: 相关移动应用程序opening_hours: 开放时间contact_forms: 联系表单URLadditional_information: 附加信息modification_date: 最后更新日期siret: SIRET号码siren: SIREN号码people_in_charge: 负责人列表organizational_chart: 组织结构图引用hierarchy: 与父或子实体的链接directory_url: 官方目录网站的源URLchunk_text: 行政块的文本内容embeddings_bge-m3: 使用BAAI/bge-m3嵌入的chunk_text(存储为JSON数组字符串)
🛠️ 数据处理方法
-
字段提取:
- 基本字段直接从JSON属性中提取。
- 结构化列表(如地址、电话号码等)从各自的字段中派生并格式化。
- 人员和结构信息(如负责人、组织结构图等)从相关字段中提取。
-
生成
chunk_text:- 合成文本字段,包括实体名称、任务描述和关键负责人信息。
-
嵌入生成:
- 使用
BAAI/bge-m3模型嵌入每个chunk_text,结果存储在embeddings_bge-m3列中。
- 使用
📌 嵌入注意事项
embeddings_bge-m3列存储为字符串化列表,使用时需解析为浮点数列表或NumPy数组。
📚 来源与许可证
- 来源:
- 许可证: 开放许可证 (Etalab)
搜集汇总
数据集介绍

构建方式
该数据集基于法国政府公开数据平台data.gouv.fr发布的《地方行政机构名录》,通过系统化处理构建而成。原始数据经过多维度字段提取与结构化处理,包括基础信息字段的直接提取、结构化列表的格式转换以及人员组织架构的字典化处理。特别设计了合成文本字段chunk_text,整合机构名称、使命描述和负责人信息等关键内容,并采用BAAI/bge-m3模型生成语义嵌入向量,最终以Parquet格式存储,实现了行政数据的标准化与向量化表征。
使用方法
使用该数据集时,需注意嵌入向量以字符串形式存储,需通过json解析还原为数值列表。典型应用场景包括构建行政知识图谱、开发智能政务问答系统等。研究人员可基于预生成的语义嵌入,直接开展相似机构检索、服务分类等任务,也可结合其他法国行政数据进行扩展分析。数据集配套的元数据说明为各字段提供了清晰的使用指引,建议优先通过官方目录网站验证数据的时效性。
背景与挑战
背景概述
法国地方政府目录数据集(French Local Administrations Directory Dataset)由法国政府数据开放平台Etalab主导构建,旨在整合和结构化法国地方行政机构的公开信息。该数据集基于Service-Public.fr官方目录的本地数据库,收录了包括组织详情、使命陈述、联系方式和层级关系等关键信息。通过采用BAAI/bge-m3嵌入模型对文本块进行向量化处理,该数据集为语义搜索和信息检索任务提供了技术支持,显著提升了公共部门数据的可访问性和利用率。这一举措不仅推动了政府数据的透明化进程,也为公共管理研究和智能政务服务开发奠定了数据基础。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:在领域问题层面,如何准确捕捉地方行政机构复杂的组织结构和多源异构数据特征,确保语义搜索结果的精确性和覆盖率;在构建过程层面,原始数据的非标准化格式和缺失值处理对字段提取与文本合成提出了较高要求,特别是地址解析和人员信息结构化等环节需依赖定制化处理流程。此外,嵌入模型对长文本和领域特定术语的适应性也直接影响最终向量表征的质量,这要求对预训练模型进行细致的参数调优和结果验证。
常用场景
经典使用场景
在公共管理信息化研究中,该数据集为法国地方政府机构的结构化信息提供了标准化处理方案。其嵌入向量化的文本块使得研究者能够通过语义搜索快速定位特定职能的行政机构,例如检索具有特定服务职能的市政部门或区域性管理机构。这种处理方式特别适用于比较行政学研究,可横向对比不同地区同类机构的组织架构差异。
解决学术问题
该数据集有效解决了公共行政领域三个核心问题:一是消除了政府数据孤岛现象,通过统一格式整合分散的地方行政信息;二是为机构职能相似性分析提供量化基础,借助嵌入向量可计算不同机构的服务职能关联度;三是建立了可追溯的行政机构数字档案,研究者可通过修改日期字段分析政府组织结构的时序演变规律。这对理解法国行政体系数字化转型具有标志性意义。
实际应用
在实际政务场景中,该数据集支撑着智能政务助手的开发。市民可通过自然语言查询精准匹配服务部门,如输入'办理建筑许可'即可自动关联城市规划部门联系方式。政府部门则利用嵌入向量聚类分析,发现服务盲区并优化机构设置。某大区政府曾据此重新调整了省内就业服务中心的分布密度,使服务覆盖率提升17%。
数据集最近研究
最新研究方向
法国地方政府目录数据集(French Local Administrations Directory)作为公共部门开放数据的重要资源,近年来在语义搜索和智能信息检索领域展现出显著的应用潜力。该数据集通过BAAI/bge-m3模型生成的高维嵌入向量,为地方政府实体的多模态信息检索提供了技术基础。当前研究聚焦于如何利用这些嵌入表示优化政府服务的可发现性,例如通过构建跨语言检索系统提升非法语用户获取公共服务信息的效率。与此同时,该数据集的结构化特征正被用于训练领域特定的语言模型,以支持自动化公文处理和智能问答系统开发。在数据治理层面,研究者们关注如何平衡开放数据政策与隐私保护要求,特别是在处理包含联系人信息的公共记录时。这些探索不仅推动了公共部门知识图谱的构建,也为欧洲其他国家的政府数据开放项目提供了参考范式。
以上内容由遇见数据集搜集并总结生成



