rcds/swiss_judgment_prediction

Name: rcds/swiss_judgment_prediction
Creator: rcds
Published: 2023-06-14 11:59:24
License: 暂无描述

Hugging Face2023-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rcds/swiss_judgment_prediction

下载链接

链接失效反馈

官方服务：

资源简介：

Swiss-Judgment-Prediction是一个多语言、历时性的数据集，包含85,000个瑞士联邦最高法院的案例，标注了相应的二分类判决结果（批准/驳回），提出了一个具有挑战性的文本分类任务。数据集还提供了额外的元数据，如案例的发布年份、法律领域和来源州，以促进在法律NLP领域的鲁棒性和公平性研究。数据集支持多语言使用，包括德语、法语、意大利语和英语，并且提供了机器翻译的数据作为额外的训练集。

Swiss-Judgment-Prediction is a multilingual, diachronic dataset consisting of 85,000 cases from the Swiss Federal Supreme Court, annotated with corresponding binary classification judgment outcomes (grant/deny). It poses a challenging text classification task. The dataset also provides additional metadata such as the case's publication year, legal domain, and originating canton, to facilitate robust and fairness research in the field of legal NLP. It supports multilingual usage covering German, French, Italian and English, and provides machine-translated data as an additional training set.

提供机构：

rcds

原始信息汇总

数据集概述

数据集名称

Swiss-Judgment-Prediction

语言支持

多语言：支持德语（de）、法语（fr）、意大利语（it）、英语（en）。

许可信息

CC-BY-SA-4.0

数据集大小

10K<n<100K

数据源

原始数据

任务类别

文本分类

标签信息

标签名称：0: 驳回 (dismissal), 1: 批准 (approval)

数据集结构

特征信息

id：文档的唯一标识符，数据类型为int32。
year：出版年份，数据类型为int32。
text：案件事实，数据类型为string。
label：判决结果，数据类型为class_label，包含0（驳回）和1（批准）。
language：案件语言，数据类型为string。
region：下级法院的地区，数据类型为string。
canton：下级法院的州，数据类型为string。
legal area：案件法律领域，数据类型为string。

数据分割

训练集、验证集、测试集的详细信息如下：

语言	分割	文档数量（训练/验证/测试）
德语	de	35,458 / 4,705 / 9,725
法语	fr	21,179 / 3,095 / 6,820
意大利语	it	3,072 / 408 / 812
所有语言	all	59,709 / 8,208 / 17,357
机器翻译德语	mt_de	24,251 / 0 / 0
机器翻译法语	mt_fr	38,524 / 0 / 0
机器翻译意大利语	mt_it	56,631 / 0 / 0
机器翻译所有语言	all+mt	238,818 / 8,208 / 17,357

下载和数据集大小

下载大小：1,000,382,331字节
数据集大小：根据不同语言配置，大小不同，例如：
- de：142,458,774字节
- fr：143,158,220字节
- it：14,293,828字节
- all：299,910,822字节
- all+mt：922,935,511字节

此数据集适用于法律判决预测任务，支持多语言和单语言使用，提供详细的案件信息和判决结果，适用于法律领域的自然语言处理研究。

搜集汇总

数据集介绍

构建方式

在司法人工智能领域，构建高质量的标注数据集是推动法律判决预测研究的关键基础。Swiss-Judgment-Prediction数据集的构建源于对瑞士联邦最高法院公开裁判文书的系统性收集与处理。原始数据从瑞士联邦最高法院官方网站及Entscheidsuche门户以HTML格式获取，涵盖了德语、法语和意大利语三种官方语言撰写的裁判文书。通过解析器与正则表达式技术，研究团队从这些文书中自动提取案件事实部分，并对其判决结果进行了二值化标注，将结果归类为“驳回”或“支持”两类。此外，数据集还整合了由法院提供的元数据，包括案件年份、所属地域、州份及法律领域，从而形成了一个结构完整、标注清晰的多语言法律文本分类资源。

特点

该数据集在司法自然语言处理领域展现出鲜明的多维度特征。其核心在于覆盖了瑞士三大官方语言——德语、法语和意大利语，提供了原生多语言的法律文本，为研究跨语言法律理解与迁移学习提供了宝贵素材。数据规模达到数万至数十万级别，并严格划分为训练集、验证集与测试集，保障了模型评估的可靠性。尤为突出的是，数据集不仅包含原始语言版本，还通过机器翻译技术生成了德语、法语、意大利语及英语的平行语料，极大地扩展了其在多语言与低资源场景下的应用潜力。丰富的元数据字段，如年份、地域、法律领域等，为研究判决结果的时空演变、地域差异及领域特异性提供了深入分析的可能。

使用方法

针对法律判决预测这一核心任务，该数据集提供了灵活的使用配置以适应不同的研究需求。用户可通过Hugging Face的datasets库，指定相应的配置名称来加载特定语言或组合的数据。例如，选择‘de’、‘fr’或‘it’配置可分别加载德语、法语或意大利语的单语数据集，用于训练和评估针对特定司法语言体系的模型。若需进行多语言联合研究，则可使用‘all’配置加载所有原生语言数据，或使用‘all+mt’配置以纳入机器翻译的扩展数据。每个数据实例均包含案件事实文本、二值化判决标签及丰富的元数据，研究者可据此构建文本分类模型，探索语言、地域、时间等因素对判决预测的影响，并推动司法人工智能在鲁棒性、公平性方面的前沿探索。

背景与挑战

背景概述

在自然语言处理与计算法学的交叉领域，法律判决预测旨在通过机器学习模型分析案件事实文本，从而预测司法裁决结果。瑞士联邦最高法院判决预测数据集（Swiss-Judgment-Prediction）由Joel Niklaus、Ilias Chalkidis及Matthias Stürmer等研究人员于2021年构建，并发表于自然法律语言处理研讨会。该数据集汇集了瑞士联邦最高法院发布的约8.5万份多语言判决书，涵盖德语、法语和意大利语，并标注了二值化的判决结果（支持或驳回）。其核心研究问题聚焦于探索多语言法律文本的分类与预测，旨在推动法律人工智能在鲁棒性与公平性方面的研究，为跨语言与跨法域的司法智能分析提供了宝贵的基准资源。

当前挑战

法律判决预测任务面临多重挑战，首要挑战在于法律文本的复杂性与专业性，案件事实描述常包含大量法律术语、冗长句式及隐含逻辑，使得模型难以捕捉关键判决因素。其次，多语言环境下的数据不平衡问题显著，意大利语样本量远少于德语和法语，可能导致模型在少数语言上的预测性能下降。在数据集构建过程中，挑战主要源于原始数据的异构性，判决书以非结构化的HTML格式存在，需通过解析器与正则表达式进行自动化标注，这一过程易受文本格式不一致与语言变体的干扰。此外，尽管法院已对个人信息进行匿名化处理，但数据中仍可能隐含地域、法域等潜在偏见，对模型的公平性评估构成考验。

常用场景

经典使用场景

在司法人工智能领域，瑞士联邦最高法院判决预测数据集为法律判决预测任务提供了经典的多语言文本分类场景。该数据集汇集了德语、法语和意大利语三种官方语言的判决文书，要求模型依据案件事实文本，精准预测判决结果为支持或驳回。这一场景不仅检验了模型对复杂法律文本的理解能力，还促进了跨语言法律文本处理技术的发展，为构建智能司法辅助系统奠定了数据基础。

实际应用

在实际应用中，该数据集可服务于法律科技领域，例如开发智能法律研究工具，帮助律师快速检索类似判例并预测案件走向。司法机构可利用此类模型辅助法官进行初步案件筛选，提升司法效率。法律教育领域亦可借助数据集构建教学案例库，用于培训法律专业学生理解判决模式。这些应用有助于促进司法系统的透明化与智能化转型。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，例如Niklaus等人（2021）提出的多语言法律判决预测基准框架，以及后续关于跨语言迁移学习的实证分析（2022）。这些工作深入探讨了多语言法律文本的表示学习、领域自适应方法，并激发了针对法律文本的预训练模型优化。相关研究还扩展至司法偏差检测、判决可解释性分析等方向，丰富了计算法学的研究图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集