AUEB-NLP/ecthr_cases

Name: AUEB-NLP/ecthr_cases
Creator: AUEB-NLP
Published: 2024-01-18 11:02:54
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/AUEB-NLP/ecthr_cases

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是关于欧洲人权法院（ECtHR）案件的文本分类数据集，包含了11,000个案件。数据集涵盖了案件的事实、被指控违反的条款、法院判决的违反条款以及相关的理由。数据集支持多标签文本分类任务，包括被指控违反条款的预测和实际违反条款的预测，以及理由提取任务。数据集的所有文档均为英文，且数据集的创建者包括Ilias Chalkidis和Dimitris Tsarapatsanis。数据集的使用遵循CC BY-NC-SA 4.0许可。

This is a text classification dataset focused on cases from the European Court of Human Rights (ECtHR), consisting of 11,000 case records. The dataset covers case facts, alleged violated articles, the court's adjudicated violated articles, and relevant justifications. It supports multi-label text classification tasks, including prediction of alleged violated articles and prediction of actual adjudicated violated articles, as well as justification extraction tasks. All documents in the dataset are in English. The dataset was created by Ilias Chalkidis and Dimitris Tsarapatsanis, and its use follows the CC BY-NC-SA 4.0 license.

提供机构：

AUEB-NLP

原始信息汇总

数据集概述

名称: European Court of Human Rights Cases

别名: ECtHR cases dataset

语言: 英语 (en)

许可证: CC-BY-NC-SA-4.0

多语言性: 单语

大小类别: 10K<n<100K

源数据集: 原始

任务类别: 文本分类

任务ID: 多标签分类 (multi-label-classification)

论文代码ID: ecthr

标签: rationale-extraction, legal-judgment-prediction

数据集结构

数据实例

事实 (facts): 案件的事实描述，以段落形式呈现。
标签 (labels): 讨论的欧洲人权公约条款（被指控违反的条款）。
银色理由 (silver_rationales): 法院评估中提及的案件事实段落的索引。
金色理由 (gold_rationales): 法律专家标注的，支持指控违反条款的案件事实段落的索引。

数据字段

事实 (facts): 列表[字符串]，案件段落（事实）。
标签 (labels): 列表[字符串]，讨论的ECHR条款（被指控违反的条款）；或法院判定违反的ECHR条款。
银色理由 (silver_rationales): 列表[整数]，法院评估中提及的段落（事实）的索引。
金色理由 (gold_rationales): 列表[整数]，支持指控违反的段落（事实）的索引，由法律专家标注。

数据分割

分割	ECtHR案件数量	银色理由比例	平均指控/案件
训练	9,000	24%	1.8
开发	1,000	30%	1.7
测试	1,000	31%	1.7

数据集创建

注释创建者: 专家生成, 发现
语言创建者: 发现
金标理由注释者: Dimitris Tsarapatsanis (York Law School讲师)

支持的任务和排行榜

指控违反预测 (alleged-violation-prediction): 多标签文本分类任务，根据ECtHR案件的事实，模型预测申请人指控违反的40个可违反ECHR条款。
违反预测 (violation-prediction): 多标签文本分类任务，根据ECtHR案件的事实，模型预测法院判定违反的被指控违反的ECHR条款。
理由提取: 模型还可以预测支持其分类任务决策的案件事实。银色理由可用于两个分类任务，而金色理由仅专注于指控违反预测任务。

搜集汇总

数据集介绍

构建方式

该数据集由Chalkidis等人于2021年构建，基于欧洲人权法院（ECtHR）的案例数据。数据来源于HUDOC数据库，原始数据以HTML和JSON格式存储，经过提取和处理后形成结构化数据。数据集包含11,000个案例，涵盖了案件的事实描述、涉嫌违反的欧洲人权公约（ECHR）条款、法院判决结果以及支持判决的事实段落。此外，数据集还引入了由法律专家标注的黄金理性（gold rationales），用于支持涉嫌违反条款的事实段落。

使用方法

该数据集可用于多标签文本分类任务，特别是涉嫌违反条款预测和实际违反条款预测。用户可以通过输入案件的事实段落，训练模型预测涉嫌违反的ECHR条款或法院判决结果。此外，数据集还支持理性提取任务，模型可以预测支持其分类决策的关键事实段落。银理性可用于所有分类任务，而黄金理性则专门用于涉嫌违反条款预测任务。数据集的使用有助于开发解释性强的法律决策支持系统，提升法律研究的效率和透明度。

背景与挑战

背景概述

欧洲人权法院（ECtHR）案例数据集由Ilias Chalkidis等人于2021年创建，旨在为法律判决预测和理由提取任务提供支持。该数据集包含了11,000个ECtHR案例，涵盖了案件事实、涉嫌违反的《欧洲人权公约》条款以及法院的最终判决。该数据集的构建基于Chalkidis等人2019年的工作，进一步丰富了数据内容，特别是增加了涉嫌违反条款的真实标签和理由提取的标注。该数据集在法律人工智能领域具有重要影响力，为自动化法律分析和解释性AI系统提供了宝贵的资源。

当前挑战

该数据集面临的主要挑战包括：1) 法律文本的复杂性和多样性，使得模型在预测涉嫌违反条款和提取相关理由时面临较高的不确定性；2) 数据标注的复杂性，尤其是黄金理由的标注需要法律专家的深度参与，增加了数据构建的难度；3) 数据集的规模虽然较大，但在某些特定条款上的案例分布不均衡，可能导致模型在少数类上的表现不佳。此外，法律文本中的隐含信息和上下文依赖关系也对模型的推理能力提出了更高的要求。

常用场景

经典使用场景

欧洲人权法院案件数据集（ECtHR Cases）在自然语言处理领域中被广泛应用于多标签文本分类任务，尤其是法律判决预测和理由提取。通过分析案件事实段落，模型能够预测申请人所声称的违反《欧洲人权公约》的具体条款。这一任务不仅为法律文本分析提供了新的视角，还为自动化法律辅助系统的开发奠定了基础。

解决学术问题

该数据集有效解决了法律文本分析中的多标签分类问题，尤其是在预测案件涉及的《欧洲人权公约》条款方面。通过提供案件事实、涉嫌违反的条款以及法院判决的详细标注，数据集为研究者提供了丰富的实验材料，推动了法律判决预测模型的开发与优化。此外，数据集中的理由提取任务为解释性人工智能在法律领域的应用提供了重要支持。

实际应用

在实际应用中，该数据集可用于开发自动化法律辅助工具，帮助申请人识别潜在的违反条款，并为法官提供案件事实的快速分析。此外，该数据集还可用于法律教育，帮助学生和研究人员更好地理解《欧洲人权公约》的适用情况，以及法院判决的逻辑和依据。

数据集最近研究