swedish-legal-decisions-raw-v1

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/nexoneAB/swedish-legal-decisions-raw-v1

下载链接

链接失效反馈

官方服务：

资源简介：

瑞典法院判决数据集是一个专门为大型语言模型训练设计的开源法律文本集合，包含55,096个跨越45年（1981年至今）的瑞典上诉法院判决。该数据集直接从瑞典法院判例数据库通过公共REST API获取，并预处理为三种即用型配置：1) 'pretrain'配置包含判决全文，用于领域自适应预训练；2) 'instruct'配置包含结构化提示-响应对，用于监督微调；3) 'structured'配置包含带JSON结构化注释的全文，适合法律信息提取任务。数据集特别标注了具有约束力的先例判决(ar_vagledande)，覆盖瑞典所有主要上诉法院的判决，包括最高法院、最高行政法院、上诉法院等。数据以Parquet格式提供，已划分训练/验证/测试集，语言为瑞典语，源数据采用CC0许可，数据集采用CC BY-NC 4.0许可。

创建时间：

2026-03-06

原始信息汇总

数据集概述：Swedish Court Decisions — Svenska Domstolsavgöranden

基本信息

数据集名称：Swedish Court Decisions — Svenska Domstolsavgöranden
语言：瑞典语 (sv)
许可证：CC BY-NC 4.0
任务类别：文本生成、问答、摘要
标签：法律、瑞典语、法院判决、LLM训练、法律NLP、北欧、判例
记录总数：55,096 项判决

数据集描述

这是一个专门为LLM训练构建的瑞典法院判决数据集，包含跨越45年（1981年至今）的55,096项判决。它是可用于AI开发的最全面的瑞典上诉法院判决开放数据集。数据直接通过官方瑞典法院判例数据库的公共REST API获取，并预处理为三种即用型训练配置。

涵盖的法院

数据集包含所有主要瑞典上诉法院的判决：

最高法院 (Högsta domstolen, HD)
最高行政法院 (Högsta förvaltningsdomstolen, HFD)
上诉法院 (Hovrätterna)
行政上诉法院 (Kammarrätterna)
土地与环境上诉法院 (Mark- och miljööverdomstolen, MÖD)
劳工法院 (Arbetsdomstolen, AD)
移民上诉法院 (Migrationsöverdomstolen)

数据集配置

数据集提供三种配置，每种均包含训练集、验证集和测试集。

1. `pretrain` 配置 — 持续预训练

用于领域自适应预训练的判决全文。

列：
- text (string): 清理后的判决全文
- pub_id (string): 唯一发布ID
- domstol (string): 法院名称
- datum (string): 判决日期 (YYYY-MM-DD)
- typ (string): 判决类型
- ar_vagledande (bool): 若判决为具有约束力的判例则为True
- malnummer (string): 案件编号
- underratt_malnummer (string): 下级法院案件编号
- text_kalla (string): 文本来源 ("html" 或 "pdf")
- tecken (int32): 字符数

2. `instruct` 配置 — 指令微调 / SFT

用于监督微调的结构化提示-响应对，包含五种法律任务类型。

列：
- instruction (string): 瑞典语任务描述
- input (string): 判决文本
- output (string): 预期响应
- uppgift (string): 任务类型
任务类型 (uppgift)：
- sammanfattning: 判决的简明摘要
- domslut: 法院的判决结果
- saken: 案件主题
- parter: 当事人（上诉人和被上诉人）
- skal: 法律推理（法院的理由）

3. `structured` 配置 — 法律信息提取

全文与JSON结构化的章节标注配对，适用于文档解析、章节分类和法律实体提取的微调。

列：
- fulltext (string): 清理后的全文
- sektioner_json (string): 包含已识别章节的JSON对象
- malnummer (string): 提取的案件编号
sektioner_json 中的章节：
- titel: 文档标题
- avgörande_kort: 简短判决摘要
- överklagat_avgörande: 被上诉的判决
- klagande: 上诉人
- motpart: 被上诉人
- saken: 案件主题
- bakgrund: 背景/事实
- yrkanden: 诉求和救济请求
- skal: 法律推理
- domslut: 判决结果
- skiljaktig: 不同意见（如有）

数据来源与覆盖范围

主要来源：Sveriges Domstolar — Sök rättspraxis (https://rattspraxis.etjanst.domstol.se)
API：https://rattspraxis.etjanst.domstol.se/openapi/puh-openapi.yaml
开放数据注册表：https://www.dataportal.se/datasets/601_3755
来源许可证：CC0 (Domstolsverket)
数据集许可证：CC BY-NC 4.0
时间覆盖范围：1981年至今的判例摘要；2025年3月起的完整判决
语言：瑞典语

伦理与隐私

所有判决均为Domstolsverket根据CC0发布的公开记录。
已发布判决中的个人数据在发布前已由法院部分匿名化。
该数据集旨在用于研究和模型训练目的。
用户有责任确保其下游应用符合GDPR。
不适用于个人重新识别。

引用格式

bibtex @dataset{swedish_court_decisions, title = {Swedish Court Decisions — Svenska Domstolsavgöranden}, source = {domstol.se (Domstolsverket)}, url = {https://rattspraxis.etjanst.domstol.se}, license = {CC0}, records = {55096}, years = {1981--2025}, }

搜集汇总

数据集介绍

构建方式

在瑞典法律信息化的背景下，该数据集通过官方公开的REST API，系统性地从瑞典法院判例数据库中采集了1981年至今的55,096份上诉法院判决。原始数据以CC0许可发布，经过清洗与结构化处理，构建出三个独立的配置：完整文本用于领域自适应预训练，指令-响应对用于监督微调，以及带有JSON标注的结构化文本用于信息抽取。数据被规范地划分为训练集、验证集和测试集，并以Parquet格式存储，确保了数据的一致性与可用性。

使用方法

使用者可通过Hugging Face的`datasets`库便捷加载不同配置的数据集。对于领域自适应预训练，可加载`pretrain`配置的完整判决文本，并可依据`ar_vagledande`字段筛选先例判决。针对指令微调任务，`instruct`配置提供了涵盖摘要、判决结果、案件主题、当事人和法律推理五种任务类型的结构化提示-响应对，可直接用于监督微调流程。而`structured`配置则将全文与JSON格式的章节标注配对，适用于训练文档解析、章节分类及法律实体抽取模型，为深入的法律信息提取研究提供了坚实基础。

背景与挑战

背景概述

在自然语言处理与法律人工智能交叉领域，瑞典法律判决原始数据集（Swedish Legal Decisions Raw v1）的构建标志着北欧法律文本资源开放化进程的重要里程碑。该数据集由相关研究机构或团队于近期系统整理并发布，旨在为大规模语言模型在法律领域的适应与微调提供高质量、结构化的瑞典语判决文本语料。其核心研究问题聚焦于如何利用公开的司法数据资源，推动法律文本生成、问答与摘要等任务的模型性能提升，从而深化对瑞典法律体系与判例法的计算化理解。该数据集的发布不仅丰富了非英语法律文本资源的多样性，也为跨语言法律人工智能研究提供了关键基础设施，预期将显著促进北欧地区法律科技与司法智能化的发展。

当前挑战

该数据集致力于解决法律自然语言处理中领域适应与复杂语义理解的核心挑战。具体而言，法律文本通常包含高度专业化的术语、冗长而复杂的句式结构以及依赖上下文的法律推理逻辑，这对模型的领域知识迁移与深层语义捕捉能力提出了严峻考验。在构建过程中，挑战主要源于数据采集与处理的复杂性：需从官方数据库通过API大规模获取并清洗跨越45年的判决文本，确保数据的完整性与一致性；同时，需对判决进行精细的结构化标注，识别如判决理由、当事人信息、法律依据等关键片段，并准确标记具有先例效力的裁决，这一过程涉及大量人工校验与领域专家知识，以保障数据质量与法律严谨性。

常用场景

经典使用场景

在瑞典法律自然语言处理领域，该数据集最经典的使用场景是作为大型语言模型在司法领域的领域自适应预训练语料。研究者利用其包含的55,096份瑞典上诉法院裁决全文，对通用瑞典语或多语言模型进行法律文本的深度微调，使模型能够理解复杂的法律术语、司法推理逻辑以及判例法体系。这种预训练为后续的法律文本生成、问答和摘要任务奠定了坚实的领域知识基础。

解决学术问题

该数据集有效解决了法律人工智能研究中数据稀缺与领域专业化不足的核心问题。通过提供大规模、结构化的瑞典判例法文本，它支持了法律文本自动摘要、司法裁决预测、法律推理建模以及判例影响力分析等关键学术探索。特别是其标注的‘ar_vagledande’（是否具有判例约束力）字段，为研究具有法律约束力的先例如何塑造法律体系提供了独特的数据视角，推动了计算法学在瑞典语语境下的发展。

实际应用

在实际应用层面，基于该数据集训练的模型能够赋能一系列法律科技工具。例如，开发智能法律助手，为律师和法官快速生成案件摘要、提取关键裁决要点；构建法律信息检索系统，提升判例法数据库的查询效率与准确性；辅助法律教育，通过模拟案例帮助学生理解司法推理过程。这些应用旨在提升法律行业的效率与信息获取的便捷性，同时严格遵守数据隐私与伦理规范。

数据集最近研究