Swiss-Judgment-Prediction
收藏arXiv2021-10-02 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/5529712, https://huggingface.co/datasets/swiss_judgment_prediction
下载链接
链接失效反馈官方服务:
资源简介:
Swiss-Judgment-Prediction是一个包含85000个案例的多语言、跨时期法律判决预测数据集,由伯尔尼大学计算机科学研究所数字可持续性研究中心创建。数据集覆盖2000至2020年,包含德语、法语和意大利语案例,主要来源于瑞士联邦最高法院。该数据集旨在通过自然语言处理技术,帮助法律专业人士提高工作效率,加速司法过程。数据集不仅包含判决结果,还标注了出版年份、法律领域和案件来源地,适用于研究法律NLP的公平性和鲁棒性。
Swiss-Judgment-Prediction is a multilingual, cross-temporal legal judgment prediction dataset containing 85,000 cases, created by the Digital Sustainability Research Center of the Institute of Computer Science at the University of Bern. Covering the period from 2000 to 2020, the dataset includes cases in German, French and Italian, primarily sourced from the Federal Supreme Court of Switzerland. This dataset aims to assist legal professionals in enhancing work efficiency and expediting judicial proceedings via natural language processing (NLP) technologies. In addition to judgment outcomes, it is annotated with publication year, legal domain and case origin, and is applicable for research on the fairness and robustness of legal NLP.
提供机构:
伯尔尼大学计算机科学研究所数字可持续性研究中心
创建时间:
2021-10-02
搜集汇总
数据集介绍

构建方式
Swiss-Judgment-Prediction数据集的构建方式涉及从瑞士联邦最高法院(FSCS)的平台上下载85K份案例,并使用HTML解析器和正则表达式进行预处理。该数据集涵盖了2000年至2020年的案例,包括德语、法语和意大利语三种语言。数据集包含的案例是从各级法院上诉至FSCS的最具争议性的案例。为了应对BERT模型输入文本长度的限制,研究者采用了两种BERT变体:Long BERT和Hierarchical BERT,以处理更长的文本输入。
特点
Swiss-Judgment-Prediction数据集的特点包括:多语言(德语、法语、意大利语)、历时性(2000-2020年)、包含超过85K份案例。数据集还标注了出版年份、法律领域和原籍州,使其可用于公平性和鲁棒性研究。此外,该数据集是唯一公开可用的多语言LJP数据集,并且包含了丰富的元数据,如出版年份、法律领域和原籍州,使其成为法律NLP领域的重要资源。
使用方法
使用Swiss-Judgment-Prediction数据集的方法包括:首先,从Zenodo或Hugging Face平台上下载数据集和代码。其次,根据实验设置进行数据集的划分,如训练集、验证集和测试集。然后,选择合适的NLP模型,如BERT及其变体,进行训练和评估。最后,根据实验结果分析模型的性能和鲁棒性,并探讨模型在不同属性(如出版年份、文本长度、法律领域和原籍州)下的表现。
背景与挑战
背景概述
法律判决预测(LJP)领域,旨在通过自然语言处理技术预测案件判决结果,已成为法律人工智能研究的热点。Swiss-Judgment-Prediction数据集的创建,由瑞士伯尔尼大学计算机科学研究所的Joel Niklaus和Matthias Stürmer等人于2021年发布,为LJP研究提供了宝贵的多语言、历时性数据资源。该数据集涵盖了瑞士联邦最高法院2000年至2020年间超过8.5万个案件,包括德语、法语和意大利语三种语言,并附有案件年份、法律领域和来源地区等元数据,为法律NLP领域的公平性和鲁棒性研究提供了重要支持。
当前挑战
Swiss-Judgment-Prediction数据集的发布,为法律判决预测研究带来了新的机遇,同时也面临着一系列挑战。首先,数据集的构建过程中,研究人员需要对案件文本进行预处理,包括去除隐私信息、标注判决结果等,这需要大量的人工工作和专业知识。其次,由于案件文本通常较长,超出了BERT模型512个token的输入限制,研究人员需要采用特殊的BERT模型变体,如Hierarchical BERT和Long BERT,以处理更长的文本。此外,数据集存在严重的类别不平衡问题,超过四分之三的案件被驳回,这给模型的分类性能带来了挑战。最后,数据集的多语言特性也带来了跨语言迁移学习等挑战,需要进一步探索和解决。
常用场景
经典使用场景
Swiss-Judgment-Prediction数据集是一个多语言、历时性的法律判决预测基准数据集,包含来自瑞士联邦最高法院的85K个案例,涵盖德语、法语和意大利语。该数据集被广泛应用于法律文本处理领域,特别是用于评估和训练自然语言处理模型,以预测法律案件的判决结果。这些模型可以帮助法律专业人士在准备论点时识别其优势和劣势,也可以帮助法官和书记员审查或优先处理案件,从而加快司法程序并提高其质量。
解决学术问题
Swiss-Judgment-Prediction数据集解决了法律文本处理领域中缺乏高质量、挑战性和经过精心策划的基准数据集的问题。该数据集的发布为法律自然语言处理领域的研究提供了宝贵的资源,促进了该领域的发展。此外,该数据集还提供了关于出版年份、法律领域和来源州等元数据,可用于测试和评估法律自然语言处理模型在公平性和鲁棒性方面的表现。
衍生相关工作
Swiss-Judgment-Prediction数据集的发布推动了法律自然语言处理领域的研究,并衍生出许多相关的经典工作。这些工作包括但不限于:使用BERT等预训练模型进行法律判决预测、研究不同因素(如案件来源州、出版年份、文本长度、法律领域)对模型性能的影响、探索跨语言迁移学习技术、研究分布鲁棒优化技术等。这些工作为法律自然语言处理领域的发展提供了重要的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



