five

state_administrations_directory-full-documents

收藏
Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/hulk10/state_administrations_directory-full-documents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含企业或组织的详细联系信息和结构信息,特征字段包括文档ID、类型、名称、任务描述、地址、电话号码、邮件、网址、社交媒体、移动应用程序、营业时间、联系表单、附加信息、修改日期、注册号、企业号、负责人、组织结构、层级结构和目录URL。
创建时间:
2025-10-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称:state_administrations_directory-full-documents
  • 创建者:hulk10
  • 数据量:7,883条记录
  • 数据集大小:10,928,725字节
  • 下载大小:2,664,720字节

数据结构

特征字段

  • 文档标识:doc_id
  • 机构类型:types
  • 机构名称:name
  • 使命描述:mission_description
  • 地址信息:addresses
  • 电话号码:phone_numbers
  • 邮箱地址:mails
  • 网址链接:urls
  • 社交媒体:social_medias
  • 移动应用:mobile_applications
  • 开放时间:opening_hours
  • 联系表单:contact_forms(列表类型)
  • 补充信息:additional_information
  • 修改日期:modification_date
  • 机构编码:siret
  • 企业识别号:siren
  • 负责人信息:people_in_charge
  • 组织架构图:organizational_chart
  • 层级关系:hierarchy
  • 目录链接:directory_url

数据划分

  • 训练集:7,883个样本,占用10,928,725字节

配置信息

  • 默认配置:数据文件路径为data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在政府信息公开领域,该数据集通过系统化采集法国各级行政机构的官方目录信息构建而成。数据来源于政府公开的行政目录,采用结构化提取技术将各机构的完整档案信息转化为标准化字段,涵盖机构标识、联系方式、组织架构等核心要素。构建过程中确保了数据来源的权威性与时效性,每个记录都经过规范化处理并保留原始数据特征,最终形成包含7883个完整机构档案的高质量数据集。
特点
该数据集最显著的特点是具备完整的行政机构信息架构,不仅包含基础的联系方式和地址信息,还延伸至机构使命描述、组织层级关系和社会媒体渠道等深度内容。数据集字段设计体现了行政管理的专业性,如包含法国特有的SIRET和SIREN商业识别码,以及详细的组织结构图和负责人信息。这种多维度的信息整合为研究政府组织架构和公共服务体系提供了丰富的分析维度,数据规模适中但信息密度较高。
使用方法
研究人员可通过该数据集开展政府数字化转型、公共服务可达性等领域的实证研究。使用时可基于机构类型、地域分布或服务功能进行筛选分析,利用其结构化字段进行跨机构比较研究。数据集支持自然语言处理任务中对行政文本的理解,也可作为政府信息系统的基准测试数据。建议在使用前仔细核对数据时效性,结合具体研究问题选择相关字段组合,充分发挥其多维度信息的分析潜力。
背景与挑战
背景概述
在数字政府建设浪潮中,state_administrations_directory-full-documents作为行政机构信息标准化数据集应运而生。该数据集由法国政府数据开放平台于2020年代初期构建,旨在系统整合各级行政机构的职能描述、联络方式及组织架构等关键信息。其核心研究聚焦于打破政府部门间的信息孤岛,通过结构化数据模型实现公共服务信息的透明化与可检索化,为公民服务数字化和行政效能评估提供基础支撑。这一资源显著推动了欧洲公共部门信息再利用指令的实施进程,成为政府数据开放运动中的重要基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决跨部门异构数据融合难题,包括机构命名规范不统一、职能描述文本差异显著,以及多层级行政体系下的数据关联复杂性;在构建过程中,遭遇了非结构化文档解析的技术瓶颈,如PDF格式联络信息的自动抽取精度不足,多语言混杂的社交媒体账号识别困难,以及动态更新的行政架构维护机制缺失。这些挑战直接影响了政府服务目录数据的实时性与完整性,制约了基于该数据集的智能政务服务应用开发。
常用场景
经典使用场景
在公共管理信息化研究中,state_administrations_directory-full-documents数据集常被用于构建政府机构知识图谱。该数据集通过整合7883个法国行政机构的完整文档,包括使命描述、层级结构和联系方式等结构化字段,为自然语言处理模型提供了丰富的训练素材。研究者可利用其多维特征开发机构实体识别、关系抽取等任务,显著提升政府数据自动化处理的精度与效率。
实际应用
基于该数据集开发的智能政务系统已在实际场景中展现价值。政府部门借助其完整的联系信息和社会媒体数据,构建了全天候公共服务导航平台。企业则利用其中的机构层级特征优化商业审批流程,而公民可通过移动应用接口实时获取行政服务信息,显著提升了政民互动的透明度和便捷性。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于机构实体链接的跨部门服务推荐系统,以及利用使命描述文本聚类分析的政府职能数字化评估模型。后续研究进一步结合其时空修改记录开发出动态组织网络演化算法,为智慧城市治理提供了持续创新的方法论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作