Nicolas-BZRD/CONSTIT_opendata
收藏Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nicolas-BZRD/CONSTIT_opendata
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了自1958年以来法国宪法委员会的所有决定及其全文。内容包括争议标准、宪法决定、法律控制、海外法律控制、文本解密、选举及相关争议、任命、组织和其他决定。所有决定都发表在法国官方公报和宪法委员会年度汇编中。
提供机构:
Nicolas-BZRD
原始信息汇总
数据集概述
基本信息
- 语言: 法语
- 许可证: odc-by
- 数据规模: 1K<n<10K
- 名称: Conseil constitutionnel
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: id
- 数据类型: string
- 名称: text
- 数据类型: string
- 名称: id
- 分割:
- 名称: train
- 字节数: 73352759
- 样本数: 7097
- 名称: train
- 下载大小: 27796119
- 数据集大小: 73352759
标签
- legal
内容描述
数据集包含自1958年成立以来的所有Conseil constitutionnel决策的引用和全文,具体包括:
- 宪法决策 (DC) 自1958年
- 优先宪法问题 (QPC) 自2010年
- 国家法律控制 (LP) 自1958年(新喀里多尼亚和法属波利尼西亚)
- 海外法律控制 (LOM) 自2007年
- 文本解密 (L) 自1958年
- 拒绝受理 (FNR) 自1958年
- 选举及相关争议:
- 国民议会 (AN) 自1993年
- 参议院 (Sénat) 自1993年
- 总统选举 (Présidentielle) 自1993年
- 公投 (Référendum) 自1993年
- 失权 (D) 自1985年
- 不兼容性 (I) 自1958年
- 其他:
- 任命(成员、副报告员、秘书长)、组织、其他决策 自1997年
- 第16条 自1958年
所有宪法委员会的决策均在法国共和国官方公报和宪法委员会年度决策汇编中发布。
搜集汇总
数据集介绍

构建方式
该数据集名为CONSTIT,专注于法国宪法委员会(Conseil constitutionnel)自1958年成立以来发布的全部裁决文本。构建方式上,数据集系统整合了来自法国开放数据平台data.gouv.fr的官方资源,涵盖宪法性裁决(DC)、合宪性优先问题(QPC)、法律控制(LP)、海外法律控制(LOM)等各类诉讼标准,以及选举与相关争议(如国民议会AN、参议院Sénat、总统选举Présidentielle等)的裁决。此外,还包括任命、组织及其他决定等补充内容。所有文本均来源于法国官方公报和宪法委员会年度汇编,以法语呈现。
特点
数据集的核心特点在于其全面性与结构化。它收录了7097条训练样本,每条包含唯一标识符(id)和完整裁决文本(text),总数据量约73.35 MB。时间跨度从1958年至今,覆盖了宪法委员会所有历史时期的关键裁决类型,如合宪性审查、选举争议及紧急状态(如第16条)案例。这种多维度分类体系(如DC、QPC等)使得研究者能够针对特定法律领域进行精准检索,尤其适合法语法律文本的序列化分析。
使用方法
数据集通过HuggingFace平台以默认配置(default)提供,仅包含训练集(train)分片,文件路径为data/train-*。用户可直接利用HuggingFace的datasets库加载,例如使用load_dataset('Nicolas-BZRD/CONSTIT_opendata')命令。数据以JSON或Parquet格式存储,便于与自然语言处理工具链(如Transformers、Tokenizers)集成。适用于法律文本分类、信息检索、语言模型预训练等任务,尤其适合法语法律领域的学术研究与司法分析应用。
背景与挑战
背景概述
在司法人工智能领域,法律文书的数字化与结构化处理是推动法律智能应用的基础。CONSTIT_opendata数据集由法国宪法委员会(Conseil constitutionnel)创建并维护,旨在系统性地收录该机构自1958年成立以来所有裁决的全文及元数据。该数据集涵盖宪法裁决、选举争议、任命决定等多类法律文书,包括2010年起实施的优先合宪性问题和1958年以来的国家法律控制等核心内容。作为法语法律文本处理的重要资源,该数据集为法律信息检索、判决预测和法律知识图谱构建提供了丰富素材,对推动法语法律自然语言处理研究具有显著影响力。
当前挑战
该数据集面临的核心挑战在于法律文本的复杂性与领域特异性。首先,法律裁决文本具有高度结构化特征,包含引用条款、判决理由和最终结论等多层次内容,自动解析与信息抽取难度极大。其次,法语法律语言存在大量专业术语和固定表达,且不同时期(如1958年与2010年后)的裁决格式存在差异,增加了跨时间维度的文本标准化处理难度。此外,数据集构建过程中需确保历史裁决的完整收录与数字化精度,而早期纸质裁决的扫描识别与人工校对工作耗费大量资源,数据质量保障成为关键难题。
常用场景
经典使用场景
在法语法律自然语言处理领域,CONSTIT数据集作为法国宪法委员会自1958年成立以来所有裁决的全文语料库,经典地服务于法律文本分类与判决结果预测任务。研究者借助该数据集,能够训练基于Transformer架构的模型,对宪法裁决、选举争议及合宪性审查等不同案件类型进行精准区分,进而实现法律文书的自动化归档与检索。
解决学术问题
该数据集有效回应了法语法律文本资源匮乏的困境,为跨语言法律信息检索与比较法研究提供了基准语料。学术上,它解决了宪法裁决中隐含的规范层级识别问题,助力学者量化分析合宪性审查的历史演变规律,并推动可解释人工智能在法律推理中的应用探索,从而深化对法国宪法实践的理论理解。
衍生相关工作
基于该数据集,学界已衍生出多项经典工作,包括法国宪法裁决的篇章级语义分割模型、面向QPC(优先合宪性审查)的问答系统,以及融合时间维度的法律演化分析框架。这些工作不仅拓展了法律自然语言处理的研究边界,也为其他法语司法管辖区(如比利时、瑞士)的类似数据集构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



