Criticality Prediction

Name: Criticality Prediction
Creator: 伯尔尼大学、伯尔尼应用科学大学、斯坦福大学、哥本哈根大学
Published: 2024-10-17 19:43:16
License: 暂无描述

arXiv2024-10-17 更新2024-10-19 收录

下载链接：

https://huggingface.co/datasets/rcds/swiss_criticality_prediction

下载链接

链接失效反馈

官方服务：

资源简介：

Criticality Prediction数据集是由伯尔尼大学等机构创建的，旨在评估瑞士联邦最高法院判决对未来司法实践的影响。数据集包含138,531个案例，涵盖德语、法语和意大利语，通过半自动化的方法生成标签，避免了传统手动标注的资源密集型问题。数据集采用两级标签系统，LD-Label用于标识作为Leading Decisions发布的案例，Citation-Label则根据引用频率和时效性对案例进行排名。该数据集的应用领域主要集中在法律领域的案件重要性预测，旨在帮助法律专业人士更有效地管理大量案例法。

The Criticality Prediction Dataset was developed by institutions including the University of Bern, with the goal of assessing the impact of rulings issued by the Federal Supreme Court of Switzerland on future judicial practices. Comprising 138,531 cases across German, French and Italian languages, this dataset generates labels through a semi-automated methodology, thus avoiding the resource-intensive burdens of traditional manual annotation. It employs a two-tier labeling system: the LD-Label is utilized to identify cases designated as Leading Decisions, whereas the Citation-Label ranks cases based on their citation frequency and timeliness. The core application of this dataset lies in case criticality prediction within the legal domain, with the aim of helping legal professionals more effectively manage large volumes of case law.

提供机构：

伯尔尼大学、伯尔尼应用科学大学、斯坦福大学、哥本哈根大学

创建时间：

2024-10-17

原始信息汇总

数据集卡片：Legal Criticality Prediction

数据集描述

数据集概述

Legal Criticality Prediction (LCP) 是一个多语言、历时数据集，包含139K瑞士联邦最高法院（FSCS）案件，带有两个关键性标签。bge_label 是一个二元标签（critical, non-critical），而 citation_label 有5个类别（critical-1, critical-2, critical-3, critical-4, non-critical）。citation_label 的关键类别是 bge_label 关键类别的不同子集。该数据集创建了一个具有挑战性的文本分类任务。此外，我们还提供了额外的元数据，如出版年份、法律领域和案件来源的州，以促进法律NLP领域的鲁棒性和公平性研究。

支持的任务和排行榜

LCP 可用于文本分类任务。

语言

数据集包含瑞士的三种官方语言：德语、法语和意大利语。案件由法官和书记员用诉讼语言书写。

德语 (91k)
法语 (33k)
意大利语 (15k)

数据集结构

数据实例

json { "decision_id": "008d8a52-f0ea-4820-a18c-d06066dbb407", "language": "fr", "year": "2018", "chamber": "CH_BGer_004", "region": "Federation", "origin_chamber": "338.0", "origin_court": "127.0", "origin_canton": "24.0", "law_area": "civil_law", "law_sub_area": "", "bge_label": "critical", "citation_label": "critical-1", "facts": "Faits : A. A.a. Le 17 août 2007, C.X._, née le 14 février 1944 et domiciliée...", "considerations": "Considérant en droit : 1. Interjeté en temps utile (art. 100 al. 1 LTF) par les défendeurs qui ont succombé dans leurs conclusions (art. 76 LTF) contre une décision...", "rulings": "Par ces motifs, le Tribunal fédéral prononce : 1. Le recours est rejeté. 2. Les frais judiciaires, arrêtés à 10000 fr., sont mis solidairement à la charge des recourants..." }

数据字段

decision_id: (str) 文档的唯一标识符
language: (str) 语言 (de, fr, it)
year: (int) 出版年份
chamber: (str) 案件所在的法庭
region: (str) 案件所在的地区
origin_chamber: (str) 原始案件的法庭
origin_court: (str) 原始案件的法院
origin_canton: (str) 原始案件的州
law_area: (str) 案件的法律领域
law_sub_area: (str) 案件的法律子领域
bge_label: (str) 关键性标签 (critical, non-critical)
citation_label: (str) 引用标签 (critical-1, critical-2, critical-3, critical-4, non-critical)
facts: (str) 案件的事实
considerations: (str) 案件的考虑
rulings: (str) 案件的裁决

数据分割

数据集按日期分割：

训练集: 2002-2015
验证集: 2016-2017
测试集: 2018-2022

语言	子集	文档数量 (训练/验证/测试)
德语	de	81,264 (56,592 / 19,601 / 5,071)
法语	fr	49,354 (29,263 / 11,117 / 8,974)
意大利语	it	7,913 (5,220 / 1,901 / 792)

数据集创建

数据来源

原始数据由瑞士联邦最高法院发布（https://www.bger.ch），格式为未处理的HTML。文档从Entscheidsuche门户（https://entscheidsuche.ch）下载为HTML格式。

注释过程

bge_label: 提取bge标题中的所有bger_references，并将bger文件名与找到的引用进行比较。
citation_label: 计算所有bger案件的所有引用并加权引用，根据引用数量将引用案件分为四个不同的类别。

个人和敏感信息

数据集包含瑞士联邦最高法院的公开法庭判决。个人或敏感信息在发布前已由法院根据以下指南进行匿名化：https://www.bger.ch/home/juridiction/anonymisierungsregeln.html。

附加信息

许可信息

数据集在CC-BY-4.0许可下发布，符合法院许可（https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf）。

引用信息

请引用我们的ArXiv预印本：https://arxiv.org/abs/2306.09237

@misc{rasiah2023scale, title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus}, year={2023}, eprint={2306.09237}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

该数据集通过半自动化的标签生成方法构建，旨在评估瑞士联邦最高法院判决对未来司法实践的影响。与依赖资源密集型手动注释的传统方法不同，本研究采用算法生成的标签，从而能够创建更大规模的数据集。数据集包含两层标签系统：（1）LD-Label，用于识别作为主要判决发布的案件；（2）Citation-Label，根据案件被引用的频率和时效性进行排名。这种半自动化的方法不仅提高了数据集的规模，还确保了标签的客观性和一致性。

使用方法

该数据集适用于多种法律自然语言处理任务，特别是案件重要性预测和优先级排序。研究者可以通过输入案件的事实和法律考虑，利用LD-Label或Citation-Label进行模型训练和评估。数据集的划分包括训练集（2002-2015）、验证集（2016-2017）和测试集（2018-2022），支持纵向研究和模型性能的长期评估。此外，数据集的多语言特性为跨语言法律文本处理提供了宝贵的资源。

背景与挑战

背景概述

在法律领域，预测案件的重要性对于司法系统中的专业人员管理大量案例至关重要。尽管这一任务意义重大，但现有的方法主要依赖于资源密集型的人工标注，这不仅耗时且易受个人主观判断的影响。为此，Stern等人于2024年提出了一种新的数据集——Criticality Prediction，旨在通过半自动化的标签生成方法，评估瑞士联邦最高法院判决对未来司法实践的影响。该数据集引入了两级标签系统：LD-Label用于识别作为Leading Decisions发布的案件，Citation-Label则基于引用频率和时效性对案件进行排名。这一创新不仅扩大了数据集的规模，还为法律自然语言处理（NLP）领域提供了宝贵的资源。

当前挑战

Criticality Prediction数据集面临的挑战主要集中在两个方面。首先，法律领域中案件重要性的评估本身就是一个复杂且主观的过程，依赖于代理指标如是否被列为Leading Decisions以及引用频率，这些指标虽能提供一定程度的客观性，但仍难以完全避免主观偏见。其次，数据集的构建过程中，如何确保半自动化标签的准确性和一致性是一个重大挑战。此外，尽管该数据集采用了多语言处理，但在不同语言间的模型表现差异以及如何平衡这些差异，也是未来研究中需要解决的问题。

常用场景

经典使用场景

在法律领域，预测案件的重要性对于司法系统中的专业人士至关重要。Criticality Prediction数据集通过半自动化的标签生成方法，提供了瑞士联邦最高法院判决的全面评估。该数据集的经典使用场景包括：通过LD-Label识别被列为Leading Decisions（LD）的案件，以及通过Citation-Label根据引用频率和时效性对案件进行排名。这种双层标签系统使得对案件重要性的评估更加细致和动态，适用于法律文本分类和案件优先级排序等任务。

解决学术问题

Criticality Prediction数据集解决了法律领域中案件重要性预测的学术研究问题。传统方法依赖于资源密集型的手动标注，而该数据集通过算法生成的标签，显著扩大了数据规模。这不仅提高了模型训练的效率，还减少了人为偏见的影响。此外，数据集引入了时间加权的引用标签，使得对案件重要性的评估更加科学和客观，为法律自然语言处理（NLP）研究提供了新的视角和工具。

实际应用

在实际应用中，Criticality Prediction数据集为法律专业人士提供了强大的支持。通过预测案件的重要性，司法系统可以更有效地管理大量案件，优先处理具有重大影响的案件，从而提高司法效率。此外，该数据集还可用于案件优先级排序，帮助分配更有经验的法官处理关键案件。在法律研究和实践中，这种数据驱动的决策支持工具能够显著提升工作效率和决策质量。

数据集最近研究