jurisprudence
收藏数据集概述
基本信息
- 数据集名称: Jurisprudence
- 许可证: etalab-2.0
- 语言: 法语 (fr)
- 标签: 法律, 司法, 判决, 法语, 法国, 判例法
- 任务类别:
- 文本生成
- 文本分类
- 零样本分类
- 句子相似度
- 特征提取
数据集配置
- 默认配置: default
- 数据文件:
tribunal_judiciaire.parquetcour_d_appel.parquetcour_de_cassation.parquet
- 数据文件:
- 其他配置:
tribunal_judiciaire:tribunal_judiciaire.parquetcour_d_appel:cour_d_appel.parquetcour_de_cassation:cour_de_cassation.parquet
数据统计
| 司法管辖 | 判决数量 | 最早日期 | 最新日期 | 词元数 | JSONL (gzipped) | Parquet |
|---|---|---|---|---|---|---|
| Cour dAppel | 378,392 | 1996-03-25 | 2024-09-04 | 1,895,747,631 | 1.66 GB | 2.77 GB |
| Cour de Cassation | 534,258 | 1860-08-01 | 2024-09-10 | 1,103,935,111 | 928.92 MB | 1.57 GB |
| Tribunal Judiciaire | 58,986 | 2023-12-14 | 2024-08-13 | 211,665,028 | 189.16 MB | 315.38 MB |
| 总计 | 971,636 | 1860-08-01 | 2024-09-10 | 3,211,347,770 | 2.75 GB | 4.65 GB |
数据集使用示例
HuggingFace Datasets
python
pip install datasets
import datasets
dataset = load_dataset("antoinejeannot/jurisprudence") dataset.shape
{tribunal_judiciaire: (58986, 33), cour_d_appel: (378392, 33), cour_de_cassation: (534258, 33)}
或者单独加载每个司法管辖区的数据
cour_d_appel = load_dataset("antoinejeannot/jurisprudence", "cour_d_appel") tribunal_judiciaire = load_dataset("antoinejeannot/jurisprudence", "tribunal_judiciaire") cour_de_cassation = load_dataset("antoinejeannot/jurisprudence", "cour_de_cassation")
自定义库使用
python url = "https://huggingface.co/datasets/antoinejeannot/jurisprudence/resolve/main/cour_de_cassation.parquet" # 或 tribunal_judiciaire.parquet, cour_d_appel.parquet
pip install polars
import polars as pl df = pl.scan_parquet(url)
pip install pandas
import pandas as pd df = pd.read_parquet(url)
pip install duckdb
import duckdb table = duckdb.read_parquet(url)
引用
bibtex @misc{antoinejeannot2024, author = {Jeannot Antoine and {Cour de Cassation}}, title = {Jurisprudence}, year = {2024}, howpublished = {url{https://github.com/antoinejeannot/jurisprudence}}, note = {数据来源: API Judilibre, url{https://www.data.gouv.fr/en/datasets/api-judilibre/}} }




