five

service-public

收藏
Hugging Face2025-05-26 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/AgentPublic/service-public
下载链接
链接失效反馈
官方服务:
资源简介:
Service-Public.fr实用表格数据集(行政程序)是一个来自Service-Public.fr官方平台的实用信息表格和资源的数据集,旨在为个人和创业者提供与多个主题相关的行政程序信息。数据集以Parquet格式提供,包含结构化和分块的官方内容,适用于就业、劳动法和行政程序。每个记录是一个语义连贯的文本片段,包括元数据和预计算的嵌入向量,适合用于搜索和检索应用。
创建时间:
2025-05-24
原始信息汇总

🇫🇷 Service-Public.fr实用表格数据集(行政程序)

数据集概述

  • 语言:法语(fr)
  • 标签:法国、公共服务、行政程序、嵌入、行政管理、开放数据、政府
  • 名称:Service-Public.fr实用表格数据集
  • 规模:10K<n<100K
  • 许可证:etalab-2.0

数据集来源

数据集内容

  • 格式:Parquet
  • 目标受众:个人(Particuliers)和企业家(Entreprendre)。
  • 主题:就业、劳动法、行政程序等。

数据列说明

列名 类型 描述
chunk_id str 每个块的唯一生成哈希值。
sid str 源站点的文章标识符。
chunk_index int 块在原始文章中的索引。
audience str 目标受众:Particuliers和/或Professionnels
theme str 主题类别(如Famille - Scolarité, Travail - Formation)。
title str 文章标题。
surtitre str 文章结构中的高级主题。
source str 数据集来源标签(始终为"service-public")。
introduction str 文章的引言段落。
url str 原始文章的URL。
related_questions list[dict] 相关问题列表,包括其sid和URL。
web_services list[dict] 关联的Web服务(如有)。
context list[str] 与块相关的章节名称。
text str 从文章章节中提取的文本内容块。
chunk_text str 格式化文本,包含titlecontextintroductiontext值。
embeddings_bge-m3 str 使用BAAI/bge-m3生成的chunk_text嵌入向量(长度为1024)。

数据处理方法

  1. 字段提取

    • 从原始XML文件中提取基本字段(如sidthemetitle等)。
    • 生成唯一字段(如chunk_idchunk_index等)。
  2. 生成chunk_text

    • 使用RecursiveCharacterTextSplitter函数生成块。
    • 参数:chunk_size=1500chunk_overlap=20length_function=len
  3. 嵌入生成

嵌入使用说明

  • embeddings_bge-m3列存储为浮点数的字符串化列表。
  • 使用时需解析为浮点数列表或NumPy数组。

来源与许可证

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自法国官方政务平台Service-Public.fr,通过系统化处理原始XML文档构建而成。采用Langchain的RecursiveCharacterTextSplitter工具对文本进行智能分块处理,设置1500字符的块大小与20字符的重叠区间,确保语义连贯性。每段文本块均通过BAAI/bge-m3模型生成1024维嵌入向量,并保留原始文档的结构化元数据,包括主题分类、目标受众和相关服务链接等关键信息。
使用方法
使用者可通过解析Parquet文件中的字符串化嵌入向量(需用json.loads转换)构建语义检索系统。该数据集特别适合作为RAG架构的知识库,或用于训练法语行政领域问答模型。配套元数据支持多维度筛选,如按主题分类(Famille - Scolarité)或受众类型(Particuliers/Professionnels)。建议结合BAAI/bge-m3模型进行相似度计算,以实现最佳检索效果。
背景与挑战
背景概述
Service-Public.fr实用表格数据集源于法国官方政务平台Service-Public.fr,专注于为个人和企业家提供行政程序相关的实用信息。该数据集由法国政府开放数据平台data.gouv.fr公开发布,经过结构化处理和分块优化,旨在提升语义检索效率和大规模嵌入应用。数据集内容涵盖就业、劳动法和行政程序等主题,采用BAAI/bge-m3模型生成嵌入向量,为语义搜索和检索任务提供支持。其创建背景反映了政府部门推动政务信息透明化、便捷化的努力,对提升公共行政服务效率和公民信息获取体验具有重要意义。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,如何准确理解复杂的行政程序术语并将其转化为可检索的语义内容是一大难点,这要求嵌入模型具备处理专业政务语言的能力;在构建过程层面,原始XML文档的结构化信息提取与分块策略需要精细设计,既要保持语义连贯性,又要适配大多数语言模型的上下文窗口限制。此外,多主题分类的准确性和相关问题的关联性维护也增加了数据处理的复杂度。这些挑战直接影响了语义检索系统的准确性和用户体验。
常用场景
经典使用场景
在公共行政服务领域,Service-Public.fr数据集为研究人员和开发者提供了丰富的结构化文本资源。该数据集经过精心处理,将官方内容分割成语义连贯的文本片段,并配备了预计算的嵌入向量,使其成为构建高效语义搜索系统的理想选择。通过利用BAAI/bge-m3模型生成的嵌入向量,用户可以实现精准的文档检索,特别是在处理复杂的行政程序查询时展现出卓越性能。
解决学术问题
该数据集有效解决了公共行政信息检索中的语义理解难题。通过提供高质量的嵌入向量和结构化文本,研究人员能够深入探索自然语言处理在行政服务领域的应用。其意义在于建立了行政程序知识的标准化表示,为跨语言、跨平台的信息检索研究提供了宝贵资源,推动了政府公开数据在AI领域的创新应用。
实际应用
在实际应用中,该数据集为法国公民和企业提供了智能化的行政服务支持。政府部门可以基于该数据集开发虚拟助手,帮助用户快速定位所需的行政程序信息。法律科技公司则利用这些数据构建专业知识库,为律师和咨询师提供高效的法规检索工具。教育机构也可将其作为案例素材,用于公共管理专业的教学研究。
数据集最近研究
最新研究方向
在数字化政务和公共管理领域,Service-Public.fr数据集的最新研究方向聚焦于语义检索与智能问答系统的优化。该数据集通过BAAI/bge-m3模型生成的嵌入向量,为检索增强生成(RAG)管道提供了高质量的语义表示,显著提升了政府服务信息的检索效率和准确性。当前研究热点包括利用该数据集构建多语言跨模态检索系统,以及探索其在法律智能助手和自动化行政流程中的应用。这些研究不仅推动了政务公开数据的智能化利用,也为公民和企业获取精准行政信息提供了技术支撑,具有重要的社会价值和实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作