five

state-administrations-directory

收藏
Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/AgentPublic/state-administrations-directory
下载链接
链接失效反馈
官方服务:
资源简介:
法国国家行政目录数据集,包含法国国家实体的语义就绪、结构化和分块数据,包括组织详情、使命、联系信息以及层级链接。每个文本块都使用BAAI/bge-m3嵌入模型向量化,以支持语义搜索和检索任务。
创建时间:
2025-05-24
原始信息汇总

🇫🇷 法国国家行政目录数据集概述

📌 数据集基本信息

  • 语言: 法语 (fr)
  • 标签: 法国、公共部门、嵌入、目录、开放数据、政府、etalab
  • 数据集名称: French State Administrative Directory
  • 数据规模: 1K<n<10K
  • 许可证: etalab-2.0

📂 数据集内容

  • 格式: Parquet
  • 列名及描述:
    • chunk_id: 块的唯一标识符
    • types: 行政实体类型
    • name: 组织或服务名称
    • mission_description: 实体任务描述
    • addresses: 地址对象列表(街道、邮政编码、城市等)
    • phone_numbers: 电话号码列表
    • mails: 联系邮箱列表
    • urls: 相关URL列表
    • social_medias: 社交媒体账户
    • mobile_applications: 相关移动应用
    • opening_hours: 开放时间
    • contact_forms: 联系表单URL
    • additional_information: 附加信息
    • modification_date: 最后更新日期
    • siret: SIRET号码
    • siren: SIREN号码
    • people_in_charge: 负责人列表
    • organizational_chart: 组织结构图引用
    • hierarchy: 父或子实体链接
    • directory_url: 官方目录网站源URL
    • chunk_text: 行政块的文本内容
    • embeddings_bge-m3: 使用BAAI/bge-m3模型生成的嵌入

🔧 数据处理方法

  1. 字段提取:

    • 直接从原始JSON中提取基本字段
    • 结构化列表(地址、电话号码、邮件等)
    • 人员和结构信息(负责人、组织结构图、层次结构)
    • 其他字段(开放时间等)
  2. 生成chunk_text:

    • 包含实体名称、任务描述和关键负责人信息
  3. 嵌入生成:

    • 使用BAAI/bge-m3模型生成嵌入
    • 嵌入向量以字符串形式存储在embeddings_bge-m3列中

⚠️ 嵌入注意事项

  • embeddings_bge-m3列以字符串化列表形式存储
  • 使用时需解析为浮点数列表或NumPy数组

📚 来源与许可证

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于法国政府公开的行政组织目录数据构建,原始数据由法国法律与行政信息局(DILA)发布在data.gouv.fr平台。数据经过结构化处理,提取了包括组织名称、使命描述、联系方式、负责人信息等关键字段,并通过BAAI/bge-m3模型生成文本嵌入向量,以支持语义检索任务。数据处理过程中,特别注重保持原始数据的完整性和结构化特征,同时通过合成文本字段(chunk_text)整合关键信息,便于后续分析和应用。
特点
数据集涵盖了法国行政机构的详细信息,包括组织类型、使命描述、联系方式、负责人信息等结构化数据。其独特之处在于提供了经过BAAI/bge-m3模型处理的文本嵌入向量,支持高效的语义搜索和检索。数据集采用Parquet格式存储,具有轻量化和高效读取的特点。此外,数据集严格遵循Etalab开放许可协议,确保了数据的合法性和可重用性,为研究法国公共部门组织提供了宝贵资源。
使用方法
使用该数据集时,可通过Pandas库直接读取Parquet格式文件。需要注意的是,嵌入向量以字符串形式存储,需使用json.loads方法解析为列表或NumPy数组后方可使用。数据集适用于多种应用场景,如行政组织分析、语义搜索系统构建、公共部门知识图谱开发等。研究人员可通过嵌入向量实现高效的相似性检索,或结合其他字段进行深入的行政组织特征分析。数据集的使用需遵守Etalab开放许可协议的相关规定。
背景与挑战
背景概述
法国国家行政目录数据集(French State Administrative Directory Dataset)由法国法律与行政信息局(DILA)编制,发布于data.gouv.fr平台,旨在提供法国政府机构的详细结构化信息。该数据集涵盖了各类行政实体的组织细节、任务描述、联系信息及层级关系,为公共部门信息透明化和开放数据运动提供了重要支持。数据集经过语义化处理,采用BAAI/bge-m3模型生成文本嵌入向量,便于语义搜索和信息检索任务。作为法国政府开放数据计划的一部分,该数据集在提升政府透明度、优化公共服务信息获取效率方面具有显著影响力。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题方面,如何准确捕捉和表示复杂行政实体的语义信息,确保嵌入向量能够有效支持多样化的检索需求;构建过程方面,原始数据的异构性和非结构化特征增加了字段提取和标准化的难度,同时保持数据的时效性和一致性也面临挑战。此外,嵌入向量的存储和解析需要特殊处理,增加了数据使用的技术门槛。
常用场景
经典使用场景
在公共管理领域,French State Administrative Directory数据集为研究人员提供了法国行政机构的详细结构化信息。该数据集通过嵌入模型BAAI/bge-m3对文本内容进行向量化处理,使其能够高效支持语义搜索和信息检索任务。经典使用场景包括构建智能问答系统,帮助公众快速获取政府机构的服务信息,或为政策研究者提供机构职能和层级关系的分析依据。
解决学术问题
该数据集有效解决了公共管理研究中机构信息分散、难以系统化分析的难题。通过整合行政机构的名称、使命描述、联系方式及层级关系等多维数据,为学术界提供了研究政府组织结构、职能分配和公共服务效率的标准化素材。其嵌入表示进一步支持了跨机构语义相似性计算,为机构职能重叠分析和服务优化建议提供了量化基础。
衍生相关工作
基于该数据集衍生的经典工作包括法国数字事务部开发的行政机构知识图谱,实现了跨部门数据的语义关联。研究团队构建了基于嵌入向量的机构推荐系统,辅助公民寻找相关服务单位。另有学者利用层级关系数据建立了政府组织结构演化模型,为行政改革提供决策支持。这些工作显著提升了政府数据的可操作性和研究价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作