jurisprudence

Hugging Face2024-09-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/antoinejeannot/jurisprudence

下载链接

链接失效反馈

官方服务：

资源简介：

Jurisprudence数据集是一个开源项目，旨在自动化收集和分发法国法律判决。它利用Cour de Cassation提供的Judilibre API，从法国主要法院（Cour de Cassation, Cour d'Appel, Tribunal Judiciaire）获取判决，并将数据处理成易于访问的格式。数据集定期更新，并发布在Hugging Face上。数据集包含三种主要法院的判决数据，包括时间范围、判决数量和数据大小等信息。数据集的目标是使法律信息民主化，便于研究人员、法律专业人士和公众访问和分析法国法院判决。

The Jurisprudence dataset is an open-source project aimed at automating the collection and distribution of French legal judgments. It leverages the Judilibre API provided by Cour de Cassation to acquire judgments from France's major courts including Cour de Cassation, Cour d'Appel and Tribunal Judiciaire, and processes the data into a readily accessible format. The dataset is updated regularly and published on Hugging Face. It contains judgment data from the three aforementioned courts, with details such as time coverage, number of judgments and dataset size. The goal of this dataset is to democratize legal information, enabling researchers, legal professionals and the general public to access and analyze French court judgments.

创建时间：

2024-09-06

原始信息汇总

数据集概述

基本信息

数据集名称: Jurisprudence
许可证: etalab-2.0
语言: 法语 (fr)
标签: 法律, 司法, 判决, 法语, 法国, 判例法
任务类别:
- 文本生成
- 文本分类
- 零样本分类
- 句子相似度
- 特征提取

数据集配置

默认配置: default
- 数据文件:
  - tribunal_judiciaire.parquet
  - cour_d_appel.parquet
  - cour_de_cassation.parquet
其他配置:
- tribunal_judiciaire: tribunal_judiciaire.parquet
- cour_d_appel: cour_d_appel.parquet
- cour_de_cassation: cour_de_cassation.parquet

数据统计

司法管辖	判决数量	最早日期	最新日期	词元数	JSONL (gzipped)	Parquet
Cour dAppel	378,392	1996-03-25	2024-09-04	1,895,747,631	1.66 GB	2.77 GB
Cour de Cassation	534,258	1860-08-01	2024-09-10	1,103,935,111	928.92 MB	1.57 GB
Tribunal Judiciaire	58,986	2023-12-14	2024-08-13	211,665,028	189.16 MB	315.38 MB
总计	971,636	1860-08-01	2024-09-10	3,211,347,770	2.75 GB	4.65 GB

数据集使用示例

HuggingFace Datasets

python

pip install datasets

import datasets

dataset = load_dataset("antoinejeannot/jurisprudence") dataset.shape

{tribunal_judiciaire: (58986, 33), cour_d_appel: (378392, 33), cour_de_cassation: (534258, 33)}

或者单独加载每个司法管辖区的数据

cour_d_appel = load_dataset("antoinejeannot/jurisprudence", "cour_d_appel") tribunal_judiciaire = load_dataset("antoinejeannot/jurisprudence", "tribunal_judiciaire") cour_de_cassation = load_dataset("antoinejeannot/jurisprudence", "cour_de_cassation")

自定义库使用

python url = "https://huggingface.co/datasets/antoinejeannot/jurisprudence/resolve/main/cour_de_cassation.parquet" # 或 tribunal_judiciaire.parquet, cour_d_appel.parquet

pip install polars

import polars as pl df = pl.scan_parquet(url)

pip install pandas

import pandas as pd df = pd.read_parquet(url)

pip install duckdb

import duckdb table = duckdb.read_parquet(url)

引用

bibtex @misc{antoinejeannot2024, author = {Jeannot Antoine and {Cour de Cassation}}, title = {Jurisprudence}, year = {2024}, howpublished = {url{https://github.com/antoinejeannot/jurisprudence}}, note = {数据来源: API Judilibre, url{https://www.data.gouv.fr/en/datasets/api-judilibre/}} }

搜集汇总

数据集介绍

构建方式

Jurisprudence数据集通过自动化流程构建，主要依赖于法国最高法院（Cour de Cassation）提供的Judilibre API。该API定期从法国主要法院（包括最高法院、上诉法院和地方法院）获取判决数据，并将其转换为易于访问的格式。数据集每三天更新一次，确保数据的时效性和完整性。所有数据经过处理后，以JSONL和Parquet格式发布在Hugging Face平台上，供用户下载和使用。

特点

Jurisprudence数据集涵盖了法国最高法院、上诉法院和地方法院的判决记录，时间跨度从1860年至今，总计超过100万条判决。数据集不仅包含丰富的法律文本信息，还提供了每个判决的元数据，如日期、法院名称等。数据集的特点在于其开放性和多样性，适用于多种自然语言处理任务，如文本生成、分类、零样本分类和句子相似度计算。此外，数据集支持多种格式下载，便于用户根据需求选择合适的数据处理工具。

使用方法

用户可以通过Hugging Face的`datasets`库轻松加载Jurisprudence数据集，支持按法院类型分别加载或整体加载。数据集兼容多种深度学习框架，如PyTorch、TensorFlow和Jax，用户可以直接将其用于模型训练和评估。此外，数据集还支持使用Polars、Pandas和DuckDB等工具进行高效的数据分析和处理。通过简单的代码示例，用户可以快速上手，灵活应用于法律研究、人工智能模型开发等领域。

背景与挑战

背景概述

Jurisprudence数据集是一个专注于法国法律判决的开源项目，由Antoine Jeannot主导，并与法国最高法院（Cour de Cassation）合作，利用其提供的Judilibre API进行数据收集与处理。该项目自2024年起开始运作，旨在通过自动化手段获取法国主要法院（包括最高法院、上诉法院和地方法院）的判决数据，并将其转化为易于访问的格式，如JSONL和Parquet。该数据集的核心研究问题在于如何通过技术手段实现法律信息的民主化，为研究人员、法律从业者及公众提供便捷的法律数据分析工具。其影响力不仅限于法律研究领域，还为人工智能模型的开发提供了丰富的训练数据。

当前挑战

Jurisprudence数据集在构建过程中面临多重挑战。首先，法律文本的复杂性和多样性使得数据清洗和标准化变得尤为困难，尤其是在处理历史判决时，语言风格和术语的演变增加了处理的复杂性。其次，数据量庞大且更新频繁，如何高效地存储和分发这些数据是一个技术难题。此外，法律数据的敏感性要求在处理过程中严格遵守隐私保护和数据安全规范，确保数据的合法使用。最后，尽管数据集旨在促进法律信息的开放获取，但如何平衡数据的开放性与法律行业的保密性需求，仍是一个亟待解决的问题。

常用场景

经典使用场景

在法学研究领域，Jurisprudence数据集为研究者提供了一个丰富的法国法院判决数据库，涵盖了从1860年至今的超过百万条判决记录。这一数据集广泛应用于法律文本分析、判决预测模型构建以及法律知识图谱的构建。通过这一数据集，研究者能够深入分析法国法律体系的演变、判决模式及其背后的法律逻辑。

实际应用

在实际应用中，Jurisprudence数据集为法律从业者提供了一个强大的工具，用于快速检索和分析相关判例。律师和法官可以通过该数据集查找类似案件的判决结果，辅助法律决策。此外，该数据集还被用于开发法律智能助手，帮助公众理解复杂的法律条文和判决结果，提升法律服务的可及性和透明度。

衍生相关工作

基于Jurisprudence数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了基于深度学习的判决预测模型，能够根据案件事实预测判决结果。此外，该数据集还被用于构建法律知识图谱，帮助自动化法律推理和案例分析。这些衍生工作不仅推动了法律科技的发展，也为法学研究提供了新的方法论和工具。

以上内容由遇见数据集搜集并总结生成