Swiss Leading Decision Summarization (SLDS)

Name: Swiss Leading Decision Summarization (SLDS)
Creator: 伯尔尼大学、伯尔尼应用科学大学、斯坦福大学、弗里堡大学
Published: 2024-10-17 19:34:07
License: 暂无描述

arXiv2024-10-17 更新2024-10-19 收录

下载链接：

https://huggingface.co/datasets/rcds/swiss_leading_decision_summarization

下载链接

链接失效反馈

官方服务：

资源简介：

Swiss Leading Decision Summarization (SLDS)数据集是由瑞士联邦最高法院发布的18,175条法院裁决组成的多语言资源，涵盖德语、法语和意大利语，并附有德语摘要。该数据集旨在解决法律领域中多语言司法摘要的挑战，帮助法律专业人士在多语言环境中更高效地进行法律研究。数据集的创建过程包括从瑞士联邦最高法院的官方网站抓取数据，并进行多语言摘要的生成。SLDS数据集的应用领域主要集中在多语言法律摘要和辅助法律技术工具的开发，旨在提高法律文档的可访问性和处理效率。

The Swiss Leading Decision Summarization (SLDS) dataset is a multilingual resource consisting of 18,175 court rulings released by the Federal Supreme Court of Switzerland. It covers German, French and Italian, with accompanying German abstracts. This dataset aims to address the challenges of multilingual judicial summarization in the legal domain, helping legal professionals conduct legal research more efficiently in multilingual environments. The creation process of the SLDS dataset includes scraping data from the official website of the Federal Supreme Court of Switzerland and generating multilingual summaries. The application fields of the SLDS dataset mainly focus on multilingual legal summarization and the development of auxiliary legal technology tools, aiming to improve the accessibility and processing efficiency of legal documents.

提供机构：

伯尔尼大学、伯尔尼应用科学大学、斯坦福大学、弗里堡大学

创建时间：

2024-10-17

原始信息汇总

数据集卡片：Leading Decision Summarization

数据集描述

数据集摘要

该数据集包含瑞士主要决策的文本和摘要。

支持的任务和排行榜

语言

瑞士有四种官方语言，其中三种语言（德语、法语和意大利语）被代表。决策由法官和书记员在诉讼语言中书写。

语言	子集	文档数量
德语	de	12K
法语	fr	5K
意大利语	it	835

数据集结构

decision_id: 决策的唯一标识符
header: 决策的简短标题
regeste: 主要决策的摘要
text: 主要决策的正文
law_area: 决策的法律领域
law_sub_area: 决策的法律子领域
language: 决策的语言
year: 决策的年份
court: 决策的法院
chamber: 决策的法庭
canton: 决策的州
region: 决策的地区

数据字段

[更多信息需要]

数据实例

[更多信息需要]

数据分割

[更多信息需要]

数据集创建

数据收集和规范化

原始数据由瑞士联邦最高法院（https://www.bger.ch）发布，格式为未处理的HTML。文档从Entscheidsuche门户（https://entscheidsuche.ch）下载为HTML格式。

源语言生产者

决策由法官和书记员在诉讼语言中书写。

个人和敏感信息

数据集包含瑞士联邦最高法院的公开法庭决策。个人或敏感信息在发布前已由法院根据以下指南进行匿名化：https://www.bger.ch/home/juridiction/anonymisierungsregeln.html。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

数据在CC-BY-4.0下发布，符合法院许可（https://www.bger.ch/files/live/sites/bger/files/pdf/de/urteilsveroeffentlichung_d.pdf） © Swiss Federal Supreme Court, 2002-2022

引用信息

请引用我们的ArXiv预印本：https://arxiv.org/abs/2306.09237

@misc{rasiah2023scale, title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus}, year={2023}, eprint={2306.09237}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢Joel Niklaus添加此数据集。

搜集汇总

数据集介绍

构建方式

在法律研究领域，律师们每日面对着大量的案例检索与分析任务。为了提高这一过程的效率，瑞士领先的判决摘要（Swiss Leading Decision Summarization, SLDS）数据集应运而生。该数据集由瑞士联邦最高法院（SFSC）的18,000份判决组成，涵盖德语、法语和意大利语三种语言，并附有德语摘要。这些摘要由法院书记员和法官撰写，旨在突出关键法律点和相关法律条文。通过精细调整和评估多种多语言文本到文本转换变体（mT5）模型，研究人员能够有效提升法律文本摘要的准确性和效率。

特点

SLDS数据集的显著特点在于其跨语言的特性，这使得它能够应对瑞士这一多语言司法管辖区的独特挑战。此外，数据集中的摘要不仅简洁，而且包含了法律条文引用、关键词和自由形式的总结，这为法律专业人士提供了快速定位相关案例的便利。通过公开发布这一数据集，研究者们得以进一步探索多语言法律摘要技术，并开发辅助法律从业者的工具。

使用方法

使用SLDS数据集时，研究者可以利用其进行多语言法律文本摘要模型的训练与评估。具体而言，数据集的训练、验证和测试子集分别包含16,500、500和1,000个样本，这些样本按年份划分，以防止数据泄露并确保摘要风格的一致性。研究者可以通过调整mT5等模型的参数，进行领域特定的微调，从而在法律摘要任务中取得更好的性能。此外，数据集的公开发布也为法律科技领域的创新提供了坚实的基础。

背景与挑战

背景概述

Swiss Leading Decision Summarization (SLDS)数据集由Bern大学、Bern应用科学大学、Stanford大学和Fribourg大学的研究人员共同创建，旨在解决法律研究中时间消耗巨大的问题。该数据集包含了来自瑞士联邦最高法院（SFSC）的18,000份判决，涵盖德语、法语和意大利语，并附有德语摘要。SLDS的推出标志着在多语言法律摘要领域的重大进展，为法律专业人士提供了高效的辅助工具，同时也为多语言法律文本处理的研究提供了宝贵的资源。

当前挑战

SLDS数据集在构建过程中面临多重挑战。首先，法律文本的复杂性和多语言特性增加了摘要生成的难度。其次，现有数据集主要集中在单语种，无法充分应对瑞士等多语言司法管辖区的独特需求。此外，法律摘要的生成需要高度的专业知识和准确性，以确保生成的摘要能够准确反映判决的核心内容，避免误导法律专业人士。最后，尽管现有的大模型在零样本和少样本设置下表现良好，但经过领域特定微调的小模型仍展现出强大的竞争力，这为未来的研究提供了新的方向。

常用场景

经典使用场景

在法律研究领域，Swiss Leading Decision Summarization (SLDS) 数据集的经典应用场景主要集中在自动化法律判决摘要的生成。该数据集包含了瑞士联邦最高法院（SFSC）的18,000多个判决，涵盖德语、法语和意大利语，并附有德语摘要。通过训练和微调多语言模型，如mT5，研究人员能够开发出能够高效生成法律判决摘要的系统，从而帮助律师和法律从业者快速定位相关案例，提高法律研究的效率。

衍生相关工作

SLDS 数据集的发布催生了一系列相关的经典工作。首先，研究人员利用该数据集对多语言模型进行了深入的微调和评估，展示了在特定法律任务中，经过领域特定微调的小型模型如何与大型预训练模型竞争。其次，该数据集促进了多语言法律摘要技术的研究，推动了抽象摘要方法在法律文本中的应用。此外，SLDS 还激发了对多语言法律NLP工具的开发，这些工具旨在帮助法律专业人员在多语言环境中更高效地工作。

数据集最近研究