five

codes_juridiques

收藏
Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/Tricoteuses/codes_juridiques
下载链接
链接失效反馈
官方服务:
资源简介:
Légifrance立法文本数据集是一个结构化的法国立法和监管文本集合,它提供了机器可读的法国法律代码的访问,特别强调在提供额外的元数据和质量信号的同时,保持法国语言特征的完整性。
创建时间:
2025-02-06
原始信息汇总

Tricoteuses Codes Juridiques Training Dataset

数据集描述

Tricoteuses Codes Juridiques Training Dataset 是一个结构化的数据集,包含了从 Légifrance 平台 提取的法国立法和监管文本。该数据集提供了对合并后的法律代码的机器可读访问,特别关注在提供额外元数据和质量信号的同时,保持法国语言特征的完整性。数据来源于 Git 仓库 Git Tricoteuses — La loi sous git - Codes juridiques consolidés

语言

法语 (fr)

使用目的与限制

使用目的

  • 法律文本分析与研究
  • 对法国立法文件进行自然语言处理任务
  • 法律信息检索系统
  • 分析法国监管框架

限制

  • 限于法国立法文本
  • 依赖于源 Légifrance 文档的结构
  • 文本提取的质量取决于源 Markdown 格式的连贯性

数据集结构

数据字段

  • source: 字符串 - 文本的来源(例如,"Code de la sécurité sociale")
  • id: 字符串 - 立法文本的唯一标识符
  • date_debut: 字符串 - 对应于条款的有效日期。
  • date_fin: 字符串 - 表示条款将被删除或替换的日期。
  • url: 字符串 - 指向 Légifrance 上文本的直接链接
  • extra: JSON 字符串,包含:
    • État: 字符串 - 文本的状态
    • Type: 字符串 - 立法文本的类型
  • quality_signals: JSON 字符串,包含:
    • character_count: 字符总数
    • word_count: 单词总数
  • text: 字符串 - 立法文本的主要内容

备注

  • 对于当前有效的条款,如果没有计划废除或替换的日期,date_fin 设置为 2999-01-01。

  • 对于执行日期推迟但没有具体日期的条款,date_debut 则指定为 2222-02-22。

  • 如果指定了 date_fin 且与 2999-01-01 不同,则构建即将生效版本的条款的参考 URL 为 id/date_fin

数据划分

该数据集作为一个单一的数据划分提供,没有训练/验证/测试的划分。

数据集创建

源数据

数据来源于法律文本作为开放数据的可用性,由 tricoteuses-legifrance 项目检索。

数据集是从包含法国立法文本的 Markdown 文件创建的,每个文件都有 YAML 前置元数据。

使用数据的考虑

社会影响

  • 提高了法国立法文本的可访问性
  • 使计算分析法律文档成为可能
  • 支持法律研究的透明度

法律考虑

  • 使用应遵守 Légifrance 的服务条款
  • 应提供对原始来源的归属
  • 用户应验证法律文本的当前有效性

其他信息

数据集管理员

此数据集是通过对官方 Légifrance 源进行程序化维护而创建的。

许可信息

用户应参考 Légifrance 的许可条款,了解原始内容。

引用信息

在使用此数据集时,请同时引用:

  1. 原始 Légifrance 来源
  2. 此数据集处理实现

贡献

可以通过仓库的问题跟踪器或拉取请求来改进数据集处理的贡献。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要基于从Légifrance平台提取的法国立法和监管文本。这些文本经过结构化处理,保留了法语的语言特性,并附加了元数据和品质信号。数据来源于Git仓库中的Markdown文件,每个文件包含YAML格式的前置元数据。
特点
Légifrance Legislative Text Dataset的特点在于它提供了对法国法律代码的机器可读访问,注重法律文本的完整性和可访问性。数据集涵盖了各种法律领域,包括但不限于劳动法、商业法、刑法等,并且包含了法律条文的生效和失效日期,以及指向Légifrance上原文的直接链接。
使用方法
用户可以直接访问数据集中的单个法律文本,进行法律文本分析和研究,或将其用于自然语言处理任务。由于数据集没有训练/验证/测试的划分,用户需要根据具体的应用场景来对数据进行适当的分割和预处理。使用时,应遵守Légifrance的服务条款,并提供原始来源的归属。
背景与挑战
背景概述
codes_juridiques数据集,全称为Tricoteuses Codes Juridiques Training Dataset,是一组结构化的法国立法和监管文本集合。该数据集从Légifrance平台提取,专注于为用户提供机器可读的立法代码,并特别注重在提供附加元数据和质量信号的同时,保持法国语言特色的完整性。该数据集源自Git仓库Git Tricoteuses,由官方开放数据构成,涵盖了一系列法国法律代码。其创建旨在服务于法律文本分析、自然语言处理任务、法律信息检索系统以及法国监管框架的分析。主要研究人员或机构为Git Tricoteuses项目,其对原始Légifrance文档的依赖性以及文本提取质量的一致性是数据集构建的关键因素。
当前挑战
在领域问题解决方面,codes_juridiques数据集面临的挑战包括如何确保文本分析的准确性和相关性,尤其是在处理法律条文的不同版本和更新时。构建过程中的挑战则涉及数据的质量控制,包括源markdown格式的稳定性、文本提取的一致性以及元数据的准确性。此外,由于数据集缺乏训练、验证和测试的分割,如何有效地进行模型训练和评估也是一个需要解决的挑战。
常用场景
经典使用场景
该数据集的经典使用场景主要在于为自然语言处理任务提供高质量的法国立法文本,例如用于构建法律信息检索系统、进行法律文本分析和研究,以及训练自然语言处理模型以理解和生成法律相关的文本内容。
解决学术问题
该数据集解决了学术研究中对法国立法文本的获取和分析难题,使得研究者能够便捷地访问并分析法律条文,进而推动法学研究的发展,提高法律信息的可获取性和透明度。
衍生相关工作
该数据集衍生了诸多相关的工作,包括但不限于构建法律文本分类器、进行法律语义分析、开发智能法律助手等,这些工作均以该数据集为基础,进一步拓展了其在法律科技领域的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作