five

SpadaLab/pack-artisanat-reglemente-demo

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SpadaLab/pack-artisanat-reglemente-demo
下载链接
链接失效反馈
官方服务:
资源简介:
SpadaLab受监管手工艺品数据集(演示版)是一个经过预处理和结构化的法国法律文本集合,专门针对受监管的手工艺品行业。该演示版包含50个具有代表性的文本块(chunks),完整版则包含393个chunks。数据集来源于Legifrance等官方渠道,采用法语,适用于检索增强生成(RAG)系统的集成。每个文本块都包含丰富的元数据,如唯一ID、文章来源、层次结构路径、发布日期、法律状态等。数据集主要包含《手工艺品法典》和LODA文本(关于强制性职业资格、手工业者注册、建筑工匠十年责任保险等)。

SpadaLab Artisanat Réglementé (Demo) is a pre-processed and structured collection of French legal texts focusing on regulated craft industries. This demo version contains 50 representative chunks (the full version has 393 chunks). Sourced from official channels like Legifrance, the dataset is in French and ready for integration into Retrieval-Augmented Generation (RAG) systems. Each chunk includes rich metadata such as unique ID, article source, hierarchical path, publication date, legal status, etc. The dataset primarily covers the Code de lartisanat and LODA texts (on mandatory professional qualifications, trade registry enrollment, decade liability insurance for building artisans, etc.).
提供机构:
SpadaLab
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由SpadaLab基于法国官方法律数据库Legifrance(遵循Licence Ouverte Etalab 2.0开放许可)构建而成,聚焦于规制性手工艺领域(Artisanat Réglementé)的法律文本。通过从《手工业法典》及相关LODA文本中精选具有代表性的法律条文,经结构化解析、分块(chunking)与元数据丰富化处理,最终形成50个内容块组成的演示样本。每个分块均附有唯一标识符、来源文章编号、层级路径、法律状态及预估token数等15个字段的详尽元数据,便于直接集成至检索增强生成(RAG)系统中。
特点
该数据集的主要特色在于其高度结构化且面向RAG场景优化的组织方式。每个分块不仅包含精准的法律文本正文,还保留了原文的层级结构(如章节、条款)、发布时间戳及法规状态等关键属性,确保了法律信息的可溯源性。兼具Legifrance与EUR-Lex双源背景的分块设计,使得数据集在法律检索任务中具备跨平台兼容性。此外,短小精悍的50条分块规模(约17,558个token)非常适合作为快速原型验证与基准测试的基础样本。
使用方法
用户可通过Hugging Face的`datasets`库便捷加载该数据集,调用`load_dataset("SpadaLab/pack-artisanat-reglemente-demo")`即可获得训练集。借助`chunk_id`、`text`、`titre_article`等字段,开发者能够灵活构建RAG系统的索引和检索模块。例如,通过遍历`ds["train"]`提取文本内容与元数据,可快速搭建面向法国法律领域的知识问答与文本检索应用。完整版数据集(含393个分块)同样在Hugging Face上以相同格式发布,便于规模扩展。
背景与挑战
背景概述
在法国法律体系中,手工艺行业受严格法规约束,相关法律条文分散于《手工艺法典》及LODA文本等多源文件中,给信息检索与合规分析带来巨大挑战。SpadaLab于2026年发布了pack-artisanat-reglemente-demo数据集,由法国法律科技机构SpadaLab从Legifrance等官方来源构建,旨在为检索增强生成(RAG)系统提供预处理且结构化的法语法律数据。该数据集聚焦手工艺行业监管法规,涵盖职业资格、行业注册、十年责任保险等核心法律问题,其完整版本包含393个文本块,为法律信息检索领域提供了高质量的知识基础。作为法律知识库,它推动了法律文本结构化与RAG应用的发展,对提升法律咨询自动化与合规审查效率具有重要影响力。
当前挑战
该数据集解决了两个层面的挑战。在领域问题方面,法国手工艺法律条文分散且术语复杂,传统方法难以高效检索和精确回答合规问题,RAG系统依赖高质量结构化知识库,但现有资源缺乏针对手工艺行业的细粒度法律数据,导致生成式模型在法律问答中易产生幻觉。在构建过程中,SpadaLab面临从法律源文本中进行智能分块、保持跨文档引用的逻辑连续性,以及为司法状态标签(如VIGUEUR)与层级路径标注元数据的难题。多源语料(Legifrance、EUR-Lex)的格式差异与一致性处理,以及如何在小样本场景下确保元数据覆盖全面,同样是本数据集构建的关键挑战。
常用场景
经典使用场景
在法国法律信息处理领域,pack-artisanat-reglemente-demo数据集为检索增强生成(RAG)系统提供了预处理的、结构化的法语法律条文数据。该数据集包含从法国官方法律来源(如Legifrance)提取并精加工的手工业监管法规片段(chunks),每个片段均附加了详尽的元数据,包括来源代码、层级路径、发布日期及法律状态等。经典的使用场景是将这些结构化法律文本片段作为外部知识库,嵌入RAG流水线中;当用户提出涉及手工业法规的查询时,模型可首先检索最相关的文本片段,然后基于这些片段生成准确、可溯源的回答。这一方案显著提升了法律问答系统在专业领域上的事实准确性和可靠性。
衍生相关工作
围绕pack-artisanat-reglemente-demo数据集的构建理念,已衍生出一系列推动法律自然语言处理进步的相关工作。其中,SpadaLab同步发布了该数据集的完整版本(含393个文本片段),为更大规模的法律检索与生成实验提供了更充分的语料基础。在方法论层面,该数据集采用的“层级感知分块”(hierarchical-aware chunking)策略——即保留法律文本从法典、卷、章到具体条款的层级路径作为元数据——已被后续研究借鉴,用于构建《商法典》、《劳动法典》等其他法国法典的RAG就绪数据集。此外,结合该数据集进行的法律知识图谱构建、跨语言法律信息检索等前沿方向也正在被探索,共同绘制了从数据预处理到应用评测的完整研究脉络。
数据集最近研究
最新研究方向
在当前法国法律智能化与合规科技迅猛发展的浪潮中,该数据集聚焦于手工业管制领域的法律文本结构化与检索增强生成(RAG)系统构建。其前沿研究意义在于,通过将《手工业法典》及LODA等官方法语法律源材料进行精细分块与元数据标注,首次以可复用的知识库形式服务于法律问答与信息检索任务。这一工作直接响应了欧盟及法国推进数字司法公开与法律知识图谱建设的战略需求,为中小企业精准识别强制性资质要求(如职业资格、行业登记、十年责任险)提供了可靠的数据基础设施。其潜在影响在于推动传统法律条文从静态文本向动态、可检索的语义知识单元转化,赋能法律科技领域的自动化合规审查与智能法律助手的实际部署。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作