harvard-lil/cold-french-law

Name: harvard-lil/cold-french-law
Creator: harvard-lil
Published: 2024-05-22 20:26:35
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/harvard-lil/cold-french-law

下载链接

链接失效反馈

官方服务：

资源简介：

COLD French Law数据集包含超过80万条法国法律条文，这些条文是从法国的LEGI数据集中筛选和提取的，并以CSV文件的形式呈现。数据集中的大部分内容还附有由Casetext使用OpenAI的GPT-4生成的机器翻译英文版本。数据集旨在支持开放法律运动，并帮助探索和改进大型语言模型在理解外国法律文本方面的能力。

The COLD French Law dataset contains over 800,000 French legal provisions, which are screened and extracted from France's LEGI dataset and formatted as CSV files. Most entries in the dataset are paired with machine-translated English versions generated by Casetext using OpenAI's GPT-4. This dataset is designed to support the open law movement, as well as facilitate the exploration and improvement of large language models' ability to understand foreign legal texts.

提供机构：

harvard-lil

原始信息汇总

数据集概述

基本信息

数据集名称: Collaborative Open Legal Data (COLD) - French Law
数据集描述: 包含超过800,000篇法国法律文章，从法国LEGI数据集中筛选和提取，并以单个CSV文件格式提供。
数据集重点: 当前适用的法国法律文章（包括法典、法律、法令、条例等）。
语言: 法语和英语（大部分文章附有机器生成的英语翻译，由Casetext, Part of Thomson Reuters使用OpenAI的GPT-4生成）。
数据集目的: 支持开放法律运动，如Pile of Law和LegalBench，并帮助探索和提升LLM理解外国法律语料库的能力。
最后更新日期: 2024年5月22日

数据格式

文件格式: CSV
访问方式: 可直接从本仓库下载，或使用HuggingFace的datasets库进行访问和迭代。

目录结构

主要文件: cold-french-law.csv（主数据集文件）
翻译文件: en_translations.tar.gz（包含GPT-4生成的超过80万篇文章的英语翻译，由Casetext, Part of Thomson Reuters提供）

数据字典

字段名称:
- article_identifier: 文章在LEGI数据集中的唯一标识符。
- article_num: 文章在其父上下文中的标识符（如果有）。
- article_etat: 文章的当前状态，VIGEUR表示文章适用。
- article_date_debut: 文章开始适用的日期。
- article_date_fin: 文章不再适用的日期。
- texte_date_publi: 文章的发布日期。
- texte_date_signature: 文章的签署日期。
- texte_nature: 文章类型，如LOI、DECRET等。
- texte_ministere: 文章所属的部门（如果有）。
- texte_num: 文本在其父上下文中的标识符（如果有）。
- texte_nor: 参考LEGI数据集。
- texte_num_parution_jo: 文章在《官方期刊》上的发布日期。
- texte_titre: 文章的全标题。
- texte_titre_court: 文章的简短标题。
- texte_contexte: 文章的上下文，如在法典中的位置。
- article_contenu_markdown: 文章全文的Markdown格式。
- article_contenu_text: 文章全文。
- texte_ministere_en: texte_ministere的机器翻译。
- texte_titre_en: texte_titre的机器翻译。
- texte_titre_court_en: texte_titre_court的机器翻译。
- texte_contexte_en: texte_contexte的机器翻译。
- article_contenu_markdown_en: article_contenu_markdown的机器翻译。

来源说明

上游数据集: 法国LEGI数据集
翻译提供者: Casetext, Part of Thomson Reuters，使用OpenAI的GPT-4生成。

致谢

Timothée Charmeil（哈佛大学法学院LL.M 2024）为翻译管道提供评估。
Casetext, Part of Thomson Reuters团队为生成机器翻译提供专业知识和资源。

免责声明

COLD French Law不是法国法律的官方存储库。上游数据集、过滤以及机器生成的翻译可能包含错误。
数据集许可证: cc-by-4，与原始数据发布的"Licence Ouverte"兼容。

引用

@misc{cold-french-law, author = {Harvard Library Innovation Lab, Casetext - Part of Thomson Reuters}, title = {COLD French Law Dataset}, month = May, year = 2024, url = {https://huggingface.co/datasets/harvard-lil/cold-french-law} }

搜集汇总

数据集介绍

构建方式

在法学与计算语言学交叉领域，COLD French Law数据集以法国官方发布的LEGI数据集为上游来源，精心筛选并提取了超过80万条现行有效的法律条文。该数据集通过自动化流程，将原始数据整合为单一CSV文件，并借助由Casetext（隶属于Thomson Reuters）提供的GPT-4技术，为大部分条文生成了机器翻译的英文版本。这一构建过程不仅确保了数据的时效性与权威性，还通过结构化处理增强了数据的可访问性，为跨语言法律研究奠定了坚实基础。

使用方法

研究人员可通过HuggingFace的datasets库直接加载该数据集，利用Python环境进行高效的数据迭代与分析。数据集以CSV格式提供，每条记录均为字典结构，便于提取特定字段或进行批量处理。用户可基于条文内容、元数据或翻译文本开展研究，例如训练法律文本分类模型、进行跨语言信息检索或评估大语言模型对法律条文的理解能力。该数据集的开源特性与标准化格式，使其能够无缝集成于各类计算法学与人工智能研究项目中。

背景与挑战

背景概述

在数字法律信息学蓬勃发展的背景下，哈佛大学图书馆创新实验室于2024年5月推出了COLD French Law数据集，旨在构建一个开放、结构化的法国现行法律条文语料库。该数据集源自法国官方的LEGI数据集，经过精心筛选与处理，收录了超过80万条现行有效的法律条文，涵盖法典、法律、法令及政令等多种类型。其核心研究问题聚焦于如何利用大规模语言模型理解和处理外语法律文本，以支持开放法律运动，并为法律人工智能研究提供高质量的多语言基准数据。这一努力不仅促进了跨国法律知识的可及性，也为自然语言处理在法律领域的深度应用奠定了坚实基础。

当前挑战

COLD French Law数据集致力于解决法律文本理解与跨语言迁移的复杂挑战。法律条文具有高度的专业性与严谨的逻辑结构，其精确解析要求模型能够捕捉细微的语义差别和复杂的法律概念。同时，数据集构建过程中面临多重困难：从原始LEGI数据中准确筛选现行有效条文需处理法律时效性与状态变更的复杂性；而由GPT-4生成的英文翻译虽覆盖广泛，但机器翻译在专业术语一致性、法律语境忠实度方面可能存在偏差，需通过人工评估不断优化。这些挑战共同指向了构建可靠、可用法律数据基础设施的核心难题。

常用场景

经典使用场景

在法学与计算语言学的交叉领域，COLD French Law数据集为研究者提供了探索法律文本自动化处理的经典场景。该数据集汇集了超过80万条现行有效的法国法律条文，并附有机器生成的英文翻译，使其成为训练和评估法律领域大型语言模型的理想资源。研究者常利用该数据集进行法律条文的结构化解析、多语言法律信息检索以及法律文本的语义理解任务，为法律智能系统的开发奠定了数据基础。

解决学术问题

该数据集有效应对了法律人工智能研究中数据稀缺与语言壁垒两大核心挑战。通过提供大规模、高质量的法语法律条文及其英文翻译，它支持了跨语言法律信息处理模型的训练与评估，促进了法律文本的机器翻译、法律问答系统以及法律条文分类等研究方向的发展。其存在不仅丰富了开放法律数据生态，也为探索LLM在理解外国法律体系方面的能力提供了关键实验平台。

实际应用

在实际应用层面，COLD French Law数据集为法律科技产品开发提供了重要支撑。法律科技公司可利用该数据集训练智能合同审查工具，自动识别法国法律框架下的合规要点；跨国企业法务部门可借助其翻译内容，快速理解法国相关法规；此外，该数据集还能服务于法律教育平台，为学生和从业者提供结构化的法律条文学习资源，提升法律研究的效率与广度。

数据集最近研究