JuDDGES/pl-court-instruct

Name: JuDDGES/pl-court-instruct
Creator: JuDDGES
Published: 2024-08-30 15:03:15
License: 暂无描述

Hugging Face2024-08-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/JuDDGES/pl-court-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含波兰法院的判决全文及其元数据，数据来源于波兰法院的公开数据库。数据集旨在用于信息提取任务，并格式化为指令形式。数据集分为训练集和测试集，训练集包含238,851个样本，测试集包含2,000个样本。数据集的创建过程包括数据收集、过滤、清理和生成指令。数据集的语言为波兰语。

提供机构：

JuDDGES

原始信息汇总

数据集概述

数据集名称

名称: Polish Court Judgments Instruct
所有者: JuDDGES
链接: JuDDGES/pl-court-instruct

语言和多语言性

语言: pl-PL Polish
多语言性: 单语种

大小和分类

大小: 100K<n<1M
分类: 文本生成, 文本到文本生成

源数据集

源数据集: JuDDGES/pl-court-raw

任务和支持的任务

任务: 信息提取, 文本生成
支持的任务:
- 信息提取
- 文本生成

数据集结构

数据实例: 包含_id, prompt, context, output等字段
数据字段:
- _id: 唯一标识符
- prompt: 提取信息的提示模板
- context: 判决书的完整文本内容
- output: 基于提供内容的提取信息，格式为YAML
数据分割:
- 训练集: 238851样本 (99.17%)
- 测试集: 2000样本 (0.83%)

数据集创建

创建理由: 用于跨司法管辖区的法律分析
源数据: 来自官方API和判决书内容提取的元数据
数据过滤和生成指令: 详见README文件中的描述

使用数据集的注意事项

个人和敏感信息: 已进行伪匿名化处理以符合GDPR规定

附加信息

数据集管理者: 未详细说明
许可信息: 未详细说明
引用信息: 未详细说明

统计信息

未提供具体统计数据，需进一步查看README文件中的图表。

搜集汇总

数据集介绍

构建方式

在司法文本智能处理领域，波兰法院判决指令数据集（Polish Court Judgments Instruct）的构建体现了严谨的数据工程流程。该数据集源自原始波兰法院判决数据（JuDDGES/pl-court-raw），通过系统化的信息抽取目标定义与数据清洗策略完成构建。首先，研究团队从判决文本中识别出七个关键元数据字段，包括法院名称、判决日期、法官名单、书记员姓名、案件签名、审判部门名称及法律依据。随后执行严格的数据过滤：剔除目标字段存在缺失值的判决文书，对法官姓名字段进行格式规范化处理，并移除目标信息未在文本中明确出现的样本。经过清洗后，数据集保留了二十四万余条高质量样本，每条样本均通过统一的指令模板进行格式化，将判决全文嵌入预设的提示词结构中，形成标准化的指令-输出对，为法律文本的结构化信息抽取任务提供了坚实基础。

特点

该数据集的核心特征在于其专门针对波兰司法文书设计的指令微调格式。所有样本均遵循统一的提示模板，要求模型从给定的判决全文（context）中精确抽取指定的结构化信息，并以标准化YAML格式输出。数据集规模庞大，包含超过二十四万条训练样本和两千条测试样本，确保了模型训练的充分性。其语言为波兰语单语种，深度覆盖波兰法院判决的文本特性与法律术语体系。数据经过伪匿名化处理，符合欧盟《通用数据保护条例》（GDPR）要求，有效保护了涉案个人隐私。这种以任务指令为导向的数据组织形式，特别适合用于微调大语言模型进行法律领域的信息抽取与文本生成，为跨法域的法律分析研究提供了高质量的语料资源。

使用方法

该数据集主要用于微调大语言模型以执行波兰法院判决书的结构化信息抽取任务。研究人员或开发者可通过Hugging Face数据集库直接加载‘JuDDGES/pl-court-instruct’进行模型训练。典型的使用流程是，将数据集中每条样本的‘prompt’（包含指令模板）与‘context’（判决全文）拼接作为模型输入，并以对应的‘output’（结构化YAML输出）作为训练目标。数据集已预先划分为训练集与测试集，便于进行模型训练与性能评估。鉴于其指令微调的格式，该数据集同样适用于评估模型在遵循复杂指令、理解长文本及生成结构化输出方面的能力。在使用时，需注意数据仅包含波兰语文本，且所有个人信息已进行伪匿名化处理，符合相关数据伦理规范。

背景与挑战

背景概述

波兰法院判决指令数据集（JuDDGES/pl-court-instruct）由波兰弗罗茨瓦夫理工大学的研究团队于近年构建，旨在推动法律人工智能领域的发展。该数据集源自波兰官方法院判决公开平台，涵盖了超过24万条经过结构化处理的判决文书，专门用于微调大语言模型执行法律信息抽取任务。其核心研究问题聚焦于如何从非结构化的法律文本中自动化提取关键元数据，如法院名称、判决日期、法官名单及法律依据等，从而支持跨法域的法律分析与智能司法应用。该数据集的问世，为波兰语自然语言处理研究提供了珍贵的资源，显著促进了法律文本挖掘与司法智能化技术的进步。

当前挑战

该数据集致力于解决法律信息抽取领域的核心挑战，即从复杂、冗长且专业术语密集的法院判决书中准确识别并结构化关键信息。构建过程中面临多重困难：首先，原始判决文本包含大量非标准化表述与缩写，需进行精细的数据清洗与归一化处理；其次，确保抽取字段的完整性与准确性要求严格过滤缺失或错误标注的样本，导致大量数据被剔除；此外，为适应大语言模型的指令微调范式，需设计兼顾任务明确性与语言一致性的提示模板，同时处理波兰语特有的语法与语义特性，这对数据集的构建质量提出了较高要求。

常用场景

经典使用场景

在司法人工智能领域，波兰法院判决指令数据集为法律文本的结构化信息提取提供了经典范例。该数据集通过指令微调格式，将原始判决文书转化为包含法院名称、日期、法官名单、法律依据等关键字段的结构化输出，有效支持大型语言模型从复杂法律文档中精准定位并抽取指定信息，为自动化法律文档处理奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列专注于法律文本处理的研究工作，例如基于指令微调的法律信息提取模型、波兰语法律文本的预训练语言模型优化，以及结合图神经网络的法律关系挖掘。这些工作不仅扩展了数据集的用途，也为多语种法律人工智能的发展提供了重要参考，促进了学术界与实务界在法律数据分析方面的深度合作。

数据集最近研究