rcds/swiss_rulings
收藏Hugging Face2023-07-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rcds/swiss_rulings
下载链接
链接失效反馈官方服务:
资源简介:
Swiss Rulings是一个包含637,000个瑞士联邦最高法院案例的多语言、历时数据集,适用于在瑞士法律数据上预训练语言模型。该数据集涵盖德语、法语和意大利语三种语言,具体案例数量分别为319,000、246,000和71,000。数据集结构包括决策ID、事实、考虑因素等多个字段,原始数据来自瑞士联邦最高法院的未处理HTML格式文件。
Swiss Rulings是一个包含637,000个瑞士联邦最高法院案例的多语言、历时数据集,适用于在瑞士法律数据上预训练语言模型。该数据集涵盖德语、法语和意大利语三种语言,具体案例数量分别为319,000、246,000和71,000。数据集结构包括决策ID、事实、考虑因素等多个字段,原始数据来自瑞士联邦最高法院的未处理HTML格式文件。
提供机构:
rcds
原始信息汇总
数据集概述
数据集名称: Swiss Rulings
数据集大小: 100K<n<1M
许可证: CC-BY-SA-4.0
语言:
- 德语 (de)
- 法语 (fr)
- 意大利语 (it)
数据集描述
数据集摘要: SwissRulings 是一个包含637K瑞士联邦最高法院(FSCS)案件的多语言、历时数据集。该数据集可用于在瑞士法律数据上预训练语言模型。
支持的任务和排行榜:
- 未提供具体任务和排行榜信息。
语言分布:
| 语言 | 子集 | 文档数量 |
|---|---|---|
| 德语 | de | 319K |
| 法语 | fr | 246K |
| 意大利语 | it | 71K |
数据集结构
数据字段:
decision_id(字符串)facts(字符串)considerations(字符串)origin_facts(字符串)origin_considerations(字符串)law_area(字符串)language(字符串)year(整数)court(字符串)chamber(字符串)canton(字符串)region(字符串)
数据实例:
- 未提供详细信息。
数据分割:
- 未提供详细信息。
数据集创建
源数据:
- 原始数据来自瑞士联邦最高法院(https://www.bger.ch),以未处理格式(HTML)发布。
- 数据从Entscheidsuche门户(https://entscheidsuche.ch)下载。
个人和敏感信息:
- 数据集包含瑞士联邦最高法院发布的公开法庭裁决。个人信息或敏感信息已根据法院指南进行匿名化处理。
许可证信息
- 数据集根据CC-BY-4.0许可证发布,符合法院的许可要求。
引用信息
- 请引用ArXiv预印本:ArXiv-Preprint
@misc{rasiah2023scale, title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus}, year={2023}, eprint={2306.09237}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
在司法文书数字化浪潮中,Swiss Rulings数据集的构建体现了对多语言法律文本的系统性整合。该数据集源自瑞士联邦最高法院公开的裁判文书,原始数据以HTML格式发布于官方网站,并通过Entscheidsuche门户进行批量采集。采集过程中,文书内容保持了法官与书记员在诉讼程序中所使用的语言原貌,涵盖了德语、法语和意大利语三种官方语言。数据经过初步清洗与结构化处理,形成了包含案件事实、裁判理由及丰富元字段的统一格式,所有个人敏感信息均依据法院既定的匿名化准则进行了前置处理,确保了数据来源的权威性与隐私合规性。
使用方法
该数据集主要服务于法律自然语言处理领域的研究与应用。使用者可借助其大规模、多语言的裁判文书文本,进行法律领域语言模型的预训练与微调,以提升模型对专业法律术语与推理模式的理解。在具体应用中,研究人员可依据语言、年份、法律领域等元数据对数据集进行灵活筛选与划分,以构建针对特定任务(如判决预测、法律条文关联分析)的训练与评估集。数据以标准结构化字段提供,便于直接集成至主流机器学习框架进行下游任务开发,同时其开放的CC-BY-4.0许可协议保障了学术与合规使用的便利性。
背景与挑战
背景概述
瑞士联邦最高法院裁决数据集(Swiss Rulings)由瑞士联邦最高法院于2002年至2022年间发布的公开司法文书构成,收录了涵盖德语、法语和意大利语的63.7万份案例,旨在为瑞士法律领域的语言模型预训练提供多语言历时性语料。该数据集由瑞士联邦最高法院及其合作研究机构共同构建,核心研究问题聚焦于如何利用大规模司法文本提升法律自然语言处理任务的性能,如法律文本分类、信息抽取及判决预测等。其发布显著推动了计算法学领域的发展,为跨语言法律智能系统的研发奠定了数据基础,并在国际学术界引发了关于司法数据标准化与多语言法律人工智能的广泛探讨。
当前挑战
该数据集致力于解决法律自然语言处理中多语言司法文本理解与分析的挑战,具体包括跨语言法律术语对齐、历时性法律语言演变建模以及司法推理的自动解析等复杂任务。在构建过程中,面临原始数据格式异构性高、多语言文本质量不均衡以及敏感信息匿名化标准统一等难题。此外,司法文书的专业性与领域特殊性要求数据标注需依赖法律专家知识,而数据集的规模与多样性平衡亦成为影响其应用范围的关键制约因素。
常用场景
经典使用场景
在自然语言处理与法律智能交叉领域,Swiss Rulings数据集为研究者提供了丰富的多语言法律文本资源。该数据集收录了瑞士联邦最高法院的数十万份判决文书,涵盖德语、法语和意大利语三种官方语言,其经典使用场景在于预训练专门针对法律领域的语言模型。通过大规模、高质量的司法文书,模型能够学习法律术语的语义、判决逻辑的结构以及跨语言的法律表达模式,为后续的细粒度法律任务奠定基础。
解决学术问题
该数据集有效应对了法律自然语言处理中的若干核心挑战。首先,它缓解了法律领域数据稀缺问题,尤其为多语言法律文本分析提供了统一基准。其次,数据集的时间跨度和结构化元数据支持法律演变趋势研究,例如法律条文解释的历时性分析。再者,其匿名化处理保障了个人隐私,为符合伦理的司法人工智能研究树立了范例,推动了负责任的法律智能发展。
实际应用
在实际应用层面,Swiss Rulings数据集支撑了多项法律科技解决方案的开发。基于该数据集训练的模型可用于法律文书自动摘要、相似案例检索以及判决结果预测,显著提升法律从业者的工作效率。同时,多语言特性有助于构建跨境法律信息服务平台,促进不同司法管辖区之间的知识共享。此外,数据集还为法律教育提供了真实案例素材,辅助法学教学与实证研究。
数据集最近研究
最新研究方向
在司法人工智能领域,瑞士联邦最高法院裁决数据集(Swiss Rulings)作为多语言、历时性的法律文本资源,正推动前沿研究聚焦于跨语言法律信息检索与生成模型的预训练。该数据集涵盖德语、法语和意大利语共63.7万份裁决,为探索法律文本的语义理解、案例推理及判决预测提供了丰富语料。近期研究热点围绕利用该数据集构建领域特定的语言模型,以增强模型对瑞士法律体系多语言特性的适应性,同时关注数据偏差分析与司法决策透明度提升。这些进展不仅促进了计算法学的发展,也为全球多法域司法智能化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



