rcds/occlusion_swiss_judgment_prediction
收藏数据集概述
数据集摘要
该数据集包含针对瑞士判决预测任务的遮挡方法实现。请注意,此数据集仅提供测试集,应与Swiss-Judgment-Prediction数据集结合使用。
文档
Occlusion-Swiss-Judgment-Prediction 是 Swiss-Judgment-Prediction 数据集的一个子集。Swiss-Judgment-Prediction 数据集是一个多语言、历时数据集,包含 85K 瑞士联邦最高法院(FSCS)案件,每个案件都标注了相应的二元判决结果(批准/驳回)、发布年份、法律领域和案件来源的州。Occlusion-Swiss-Judgment-Prediction 通过添加带有可解释性标签的句子分割来扩展此数据集。
支持的任务和排行榜
OcclusionSwissJudgmentPrediction 可用于在法律判决预测任务中执行遮挡。
语言
瑞士有四种官方语言,其中三种语言(德语、法语和意大利语)在超过 1000 个瑞士联邦最高法院判决中得到体现。判决由法官和书记员以诉讼程序的语言书写。
数据集结构
数据实例
多语言使用
当数据集在多语言设置中使用时,选择 all_languages 标志:
python from datasets import load_dataset dataset = load_dataset(rcds/occlusion_swiss_judgment_prediction, all)
单语言使用
当数据集在单语言设置中使用时,选择三种支持语言之一的 ISO 语言代码。例如:
python from datasets import load_dataset dataset = load_dataset(rcds/occlusion_swiss_judgment_prediction, de)
数据字段
以下数据字段为文档提供(Test_1/Test_2/Test_3/Test_4):
- id: (int) 文档的唯一标识符
- year: (int) 发布年份
- label: (str) 判决结果:驳回或批准
- language: (str) 其中一种语言(de, fr, it)
- region: (str) 下级法院的地区
- canton: (str) 下级法院的州
- legal area: (str) 案件的法律领域
- explainability_label (str): 分配给遮挡文本的可解释性标签:支持判决、反对判决、中性、基线
- occluded_text (str): 遮挡的文本
- text: (str) 案件的陈述,除了带有“基线”可解释性标签的案件(包含全部陈述)
请注意,基线案例仅包含在遮挡测试集的第1版中,因为它们在不同实验中不会发生变化。
数据分割(包括瑞士判决预测)
| 语言 | 子集 | 行数(Test_1/Test_2/Test_3/Test_4) |
|---|---|---|
| 德语 | de | 427 / 1366 / 3567 / 7235 |
| 法语 | fr | 307 / 854 / 1926 / 3279 |
| 意大利语 | it | 299 / 919 / 2493 / 5733 |
| 全部 | all | 1033 / 3139 / 7986 / 16247 |
| 语言 | 子集 | 文档数量(Test_1/Test_2/Test_3/Test_4) |
|---|---|---|
| 德语 | de | 38 |
| 法语 | fr | 36 |
| 意大利语 | it | 34 |
| 全部 | all | 108 |
数据集创建
策划理由
该数据集由 Niklaus 等人(2021)和 Nina Baumgartner 策划。
源数据
初始数据收集和规范化
原始数据可在瑞士联邦最高法院(https://www.bger.ch)以未处理格式(HTML)获得。这些文档从 Entscheidsuche 门户(https://entscheidsuche.ch)以 HTML 格式下载。
源语言生产者是谁?
瑞士有四种官方语言,其中三种语言(德语、法语和意大利语)在超过 1000 个瑞士联邦最高法院判决中得到体现。判决由法官和书记员以诉讼程序的语言书写。
注释
注释过程
判决已使用解析器和正则表达式标注了二元判决结果。此外,测试集的一个子集(27 个德语案件,24 个法语案件和 23 个意大利语案件,跨越 2017 年和 2020 年)由法律专家标注,分割句子/句子组并标注以下可解释性标签之一:支持判决、反对判决和中性。测试集中的每个句子/句子组都被遮挡一次,从而可以分析模型性能的变化。法律专家标注于 2020 年 4 月至 2020 年 8 月进行。
注释者是谁?
Joel Niklaus 和 Adrian Jörg 标注了二元判决结果。元数据由瑞士联邦最高法院(https://www.bger.ch)发布。法律专家小组包括 Thomas Lüthi(律师)、Lynn Grau(硕士水平法律学生)和 Angela Stefanelli(硕士水平法律学生)。
个人和敏感信息
该数据集包含瑞士联邦最高法院的公开法庭判决。个人或敏感信息在发布前已由法院按照以下指南匿名化:https://www.bger.ch/home/juridiction/anonymisierungsregeln.html。
附加信息
数据集策展人
Niklaus 等人(2021)和 Nina Baumgartner
许可信息
我们根据法院许可(https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf)在 CC-BY-4.0 下发布数据。
© Swiss Federal Supreme Court, 2000-2020
该网站的编辑内容和合并文本的版权由瑞士联邦最高法院拥有,根据 Creative Commons Attribution 4.0 International 许可证授权。这意味着您可以在确认来源并指出所做更改的情况下重新使用内容。
来源:https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf
引用信息
@misc{baumgartner_nina_occlusion_2022, title = {From Occlusion to Transparancy – An Occlusion-Based Explainability Approach for Legal Judgment Prediction in Switzerland}, shorttitle = {From Occlusion to Transparancy}, abstract = {Natural Language Processing ({NLP}) models have been used for more and more complex tasks such as Legal Judgment Prediction ({LJP}). A {LJP} model predicts the outcome of a legal case by utilizing its facts. This increasing deployment of Artificial Intelligence ({AI}) in high-stakes domains such as law and the involvement of sensitive data has increased the need for understanding such systems. We propose a multilingual occlusion-based explainability approach for {LJP} in Switzerland and conduct a study on the bias using Lower Court Insertion ({LCI}). We evaluate our results using different explainability metrics introduced in this thesis and by comparing them to high-quality Legal Expert Annotations using Inter Annotator Agreement. Our findings show that the model has a varying understanding of the semantic meaning and context of the facts section, and struggles to distinguish between legally relevant and irrelevant sentences. We also found that the insertion of a different lower court can have an effect on the prediction, but observed no distinct effects based on legal areas, cantons, or regions. However, we did identify a language disparity with Italian performing worse than the other languages due to representation inequality in the training data, which could lead to potential biases in the prediction in multilingual regions of Switzerland. Our results highlight the challenges and limitations of using {NLP} in the judicial field and the importance of addressing concerns about fairness, transparency, and potential bias in the development and use of {NLP} systems. The use of explainable artificial intelligence ({XAI}) techniques, such as occlusion and {LCI}, can help provide insight into the decision-making processes of {NLP} systems and identify areas for improvement. Finally, we identify areas for future research and development in this field in order to address the remaining limitations and challenges.}, author = {{Baumgartner, Nina}}, year = {2022}, langid = {english} }
贡献
感谢 @ninabaumgartner 添加此数据集。



