five

AUEB-NLP/ecthr_cases

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/AUEB-NLP/ecthr_cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是关于欧洲人权法院(ECtHR)案件的文本分类数据集,包含了11,000个案件。数据集涵盖了案件的事实、被指控违反的条款、法院判决的违反条款以及相关的理由。数据集支持多标签文本分类任务,包括被指控违反条款的预测和实际违反条款的预测,以及理由提取任务。数据集的所有文档均为英文,且数据集的创建者包括Ilias Chalkidis和Dimitris Tsarapatsanis。数据集的使用遵循CC BY-NC-SA 4.0许可。

This is a text classification dataset focused on cases from the European Court of Human Rights (ECtHR), consisting of 11,000 case records. The dataset covers case facts, alleged violated articles, the court's adjudicated violated articles, and relevant justifications. It supports multi-label text classification tasks, including prediction of alleged violated articles and prediction of actual adjudicated violated articles, as well as justification extraction tasks. All documents in the dataset are in English. The dataset was created by Ilias Chalkidis and Dimitris Tsarapatsanis, and its use follows the CC BY-NC-SA 4.0 license.
提供机构:
AUEB-NLP
原始信息汇总

数据集概述

名称: European Court of Human Rights Cases

别名: ECtHR cases dataset

语言: 英语 (en)

许可证: CC-BY-NC-SA-4.0

多语言性: 单语

大小类别: 10K<n<100K

源数据集: 原始

任务类别: 文本分类

任务ID: 多标签分类 (multi-label-classification)

论文代码ID: ecthr

标签: rationale-extraction, legal-judgment-prediction

数据集结构

数据实例

  • 事实 (facts): 案件的事实描述,以段落形式呈现。
  • 标签 (labels): 讨论的欧洲人权公约条款(被指控违反的条款)。
  • 银色理由 (silver_rationales): 法院评估中提及的案件事实段落的索引。
  • 金色理由 (gold_rationales): 法律专家标注的,支持指控违反条款的案件事实段落的索引。

数据字段

  • 事实 (facts): 列表[字符串],案件段落(事实)。
  • 标签 (labels): 列表[字符串],讨论的ECHR条款(被指控违反的条款);或法院判定违反的ECHR条款。
  • 银色理由 (silver_rationales): 列表[整数],法院评估中提及的段落(事实)的索引。
  • 金色理由 (gold_rationales): 列表[整数],支持指控违反的段落(事实)的索引,由法律专家标注。

数据分割

分割 ECtHR案件数量 银色理由比例 平均指控/案件
训练 9,000 24% 1.8
开发 1,000 30% 1.7
测试 1,000 31% 1.7

数据集创建

  • 注释创建者: 专家生成, 发现
  • 语言创建者: 发现
  • 金标理由注释者: Dimitris Tsarapatsanis (York Law School讲师)

支持的任务和排行榜

  • 指控违反预测 (alleged-violation-prediction): 多标签文本分类任务,根据ECtHR案件的事实,模型预测申请人指控违反的40个可违反ECHR条款。
  • 违反预测 (violation-prediction): 多标签文本分类任务,根据ECtHR案件的事实,模型预测法院判定违反的被指控违反的ECHR条款。
  • 理由提取: 模型还可以预测支持其分类任务决策的案件事实。银色理由可用于两个分类任务,而金色理由仅专注于指控违反预测任务。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Chalkidis等人于2021年构建,基于欧洲人权法院(ECtHR)的案例数据。数据来源于HUDOC数据库,原始数据以HTML和JSON格式存储,经过提取和处理后形成结构化数据。数据集包含11,000个案例,涵盖了案件的事实描述、涉嫌违反的欧洲人权公约(ECHR)条款、法院判决结果以及支持判决的事实段落。此外,数据集还引入了由法律专家标注的黄金理性(gold rationales),用于支持涉嫌违反条款的事实段落。
使用方法
该数据集可用于多标签文本分类任务,特别是涉嫌违反条款预测和实际违反条款预测。用户可以通过输入案件的事实段落,训练模型预测涉嫌违反的ECHR条款或法院判决结果。此外,数据集还支持理性提取任务,模型可以预测支持其分类决策的关键事实段落。银理性可用于所有分类任务,而黄金理性则专门用于涉嫌违反条款预测任务。数据集的使用有助于开发解释性强的法律决策支持系统,提升法律研究的效率和透明度。
背景与挑战
背景概述
欧洲人权法院(ECtHR)案例数据集由Ilias Chalkidis等人于2021年创建,旨在为法律判决预测和理由提取任务提供支持。该数据集包含了11,000个ECtHR案例,涵盖了案件事实、涉嫌违反的《欧洲人权公约》条款以及法院的最终判决。该数据集的构建基于Chalkidis等人2019年的工作,进一步丰富了数据内容,特别是增加了涉嫌违反条款的真实标签和理由提取的标注。该数据集在法律人工智能领域具有重要影响力,为自动化法律分析和解释性AI系统提供了宝贵的资源。
当前挑战
该数据集面临的主要挑战包括:1) 法律文本的复杂性和多样性,使得模型在预测涉嫌违反条款和提取相关理由时面临较高的不确定性;2) 数据标注的复杂性,尤其是黄金理由的标注需要法律专家的深度参与,增加了数据构建的难度;3) 数据集的规模虽然较大,但在某些特定条款上的案例分布不均衡,可能导致模型在少数类上的表现不佳。此外,法律文本中的隐含信息和上下文依赖关系也对模型的推理能力提出了更高的要求。
常用场景
经典使用场景
欧洲人权法院案件数据集(ECtHR Cases)在自然语言处理领域中被广泛应用于多标签文本分类任务,尤其是法律判决预测和理由提取。通过分析案件事实段落,模型能够预测申请人所声称的违反《欧洲人权公约》的具体条款。这一任务不仅为法律文本分析提供了新的视角,还为自动化法律辅助系统的开发奠定了基础。
解决学术问题
该数据集有效解决了法律文本分析中的多标签分类问题,尤其是在预测案件涉及的《欧洲人权公约》条款方面。通过提供案件事实、涉嫌违反的条款以及法院判决的详细标注,数据集为研究者提供了丰富的实验材料,推动了法律判决预测模型的开发与优化。此外,数据集中的理由提取任务为解释性人工智能在法律领域的应用提供了重要支持。
实际应用
在实际应用中,该数据集可用于开发自动化法律辅助工具,帮助申请人识别潜在的违反条款,并为法官提供案件事实的快速分析。此外,该数据集还可用于法律教育,帮助学生和研究人员更好地理解《欧洲人权公约》的适用情况,以及法院判决的逻辑和依据。
数据集最近研究
最新研究方向
近年来,欧洲人权法院案例数据集(ECtHR Cases)在法律文本分析与人工智能辅助司法决策领域引起了广泛关注。该数据集的核心研究方向集中在多标签文本分类任务上,特别是针对申请人提出的涉嫌违反《欧洲人权公约》条款的预测。通过结合事实段落与法律条款的关联性,研究者们致力于开发能够自动提取案件事实中关键段落的模型,以支持涉嫌条款的预测。此外,数据集还引入了银标和金标理由,分别通过正则表达式提取和专家标注的方式,为模型提供了更为精确的推理依据。这些研究不仅推动了法律文本理解的自动化进程,还为司法决策的透明性和可解释性提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作