pl-nsa-enriched

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/JuDDGES/pl-nsa-enriched

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是波兰最高行政法院判决的增强版本，基于原始数据集[JuDDGES/pl-nsa](https://huggingface.co/datasets/JuDDGES/pl-nsa)，并使用Google Gemini 2.5 Pro提取了额外的字段。新增字段包括核心提取字段（如事实状态、法律状态等）、结构化法律数据（如法律引用、法律概念等）以及文档类型特定字段。数据提取模型为Google Gemini 2.5 Pro，采用波兰法律模式的结构化输出提取方法。数据集的使用方法包括直接访问文本字段和解析JSON字段。

创建时间：

2026-01-14

原始信息汇总

Polish NSA Judgments (Enriched) 数据集概述

基本信息

数据集名称：Polish NSA Judgments (Enriched)
语言：波兰语 (pl)
多语言性：单语种 (monolingual)
数据规模：1M < n < 10M
源数据集：JuDDGES/pl-nsa
标签：legal, polish, enriched, gemini, factual-state, legal-state
配置文件：默认配置 (default)，数据文件路径为 data/*.parquet，分割为 train

数据集描述

本数据集是 JuDDGES/pl-nsa 的增强版本，使用 Google Gemini 2.5 Pro 提取了额外的字段，内容为波兰最高行政法院的判决书。

新增字段

核心提取字段

字段	类型	描述
`factual_state`	字符串	事实陈述（stan faktyczny）——构成案件基础的事实情况
`legal_state`	字符串	法律框架和规定（stan prawny）——推理中适用的法律和法律条款
`extracted_title`	字符串	提取的文档标题
`extracted_date_issued`	字符串	提取的发布日期（YYYY-MM-DD 格式）
`extracted_summary`	字符串	文档的简要摘要
`extracted_thesis`	字符串	文档确立的法律论点或原则
`extracted_keywords`	JSON 字符串	从文档中提取的关键词列表

结构化法律数据

字段	类型	描述
`extracted_outcome`	JSON 字符串	判决结果，包含 `decision_type` 和 `decision_summary`
`extracted_legal_references`	JSON 字符串	引用的法律、法规和法律行为列表
`extracted_legal_concepts`	JSON 字符串	提及的法律概念，包含定义和上下文
`extracted_parties`	JSON 字符串	案件涉及的各方，包含角色和代表信息
`extracted_legal_analysis`	JSON 字符串	详细的法律推理分析

文档类型特定字段

字段	类型	描述
`extracted_judgment_specific`	JSON 字符串	法院判决书特定字段
`extracted_tax_interpretation_specific`	JSON 字符串	税务解释特定字段

数据处理

提取模型：Google Gemini 2.5 Pro
提取方法：使用波兰法律模式的结构化输出提取
连接策略：主连接键为 document_id，备用连接键为 document_number

使用示例

python from datasets import load_dataset import json

dataset = load_dataset("JuDDGES/pl-nsa-enriched")

直接访问文本字段

print(dataset[train][0][factual_state])

解析 JSON 字段

legal_refs = json.loads(dataset[train][0][extracted_legal_references])

引用

如果使用本数据集，请引用原始数据集和 JuDDGES 项目。

许可证

与原始数据集 JuDDGES/pl-nsa 相同。

由 JuDDGES 增强流程于 2026-01-14 生成

搜集汇总

数据集介绍

构建方式

在波兰法律文本挖掘领域，该数据集通过先进的自然语言处理技术对原始行政法院判决进行深度增强。构建过程依托Google Gemini 2.5 Pro模型，采用结构化输出提取方法，严格遵循波兰法律体系框架设计提取模式。数据整合以document_id为主键进行关联匹配，辅以document_number作为备用连接标识，确保原始判决文本与增强字段的精确对齐。整个处理流程系统化地解析法律文书，将非结构化判决内容转化为机器可读的语义单元。

特点

本数据集的核心特征体现在其多维度的法律语义增强结构。除了基础文本外，数据集系统化地提取了事实状态与法律状态两大核心要素，客观呈现案件事实基础与法律适用框架。结构化字段涵盖判决结果、法律依据、法律概念、案件当事人及法律推理分析等专业维度，形成层次分明的法律知识图谱。针对不同文书类型还设计了专属字段，如税务解释文书特有的属性集合，展现了领域适应的精细化设计理念。

使用方法

研究人员可通过标准数据集加载接口便捷访问该增强型法律语料库。直接调用文本字段即可获取事实陈述或法律框架等核心内容，结构化数据则需通过JSON解析器转换为可操作对象。这种设计既保留了原始文本的完整性，又提供了机器可读的语义标注，支持从基础文本分析到复杂法律知识图谱构建的多层次研究需求。数据集的标准化格式确保其能无缝集成至各类自然语言处理工作流中。

背景与挑战

背景概述

在人工智能与法律交叉领域，波兰最高行政法院判决数据集（Polish NSA Judgments）的构建标志着法律文本结构化与知识抽取的重要进展。该数据集由JuDDGES项目团队主导，其核心研究问题聚焦于如何将非结构化的司法文书转化为机器可读、富含语义的法律知识库，以支持法律信息检索、判例分析及智能法律助手等应用。通过对原始判决文书进行深度语义标注与信息抽取，该数据集不仅为波兰语法律自然语言处理研究提供了高质量资源，也推动了法律人工智能领域向更精细化、可解释化的方向发展。

当前挑战

该数据集旨在解决法律文本理解与结构化信息抽取的复杂挑战，其核心难题在于如何从专业性强、逻辑严谨的判决书中准确分离事实陈述与法律适用部分，并系统识别其中的法律概念、引用及判决结果。在构建过程中，挑战主要源于法律语言的歧义性、领域知识的专业性以及标注标准的一致性。利用Gemini模型进行自动化信息抽取时，需克服法律术语的多义性、长文本的上下文依赖以及波兰语特有的语法复杂性，确保生成的结构化字段既保持法律逻辑的完整性，又具备高度的准确性与可靠性。

常用场景

经典使用场景

在法律人工智能领域，波兰最高行政法院判决数据集（pl-nsa-enriched）的经典使用场景聚焦于法律文本的结构化信息抽取与深度分析。该数据集通过Gemini模型提取了事实状态与法律状态等关键字段，为研究者提供了丰富的标注信息，使得模型能够学习从复杂判决书中识别客观事实叙述与法律框架，进而支持法律文档的自动摘要、分类与检索任务。这一场景尤其适用于构建针对波兰法律体系的专业自然语言处理系统，推动法律文本理解的自动化进程。

解决学术问题

该数据集有效解决了法律文本分析中信息稀疏与结构隐晦的学术挑战。通过提供精确提取的事实状态、法律状态及结构化法律数据，它助力研究者探索法律语言的语义表示、判决预测模型的构建以及法律知识图谱的自动化生成。其意义在于为波兰语法律文本处理设立了高质量的基准，促进了跨语言法律人工智能研究的发展，并为法律信息学中的可解释性与推理机制提供了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在法律文本的信息抽取、判决结果预测以及法律知识表示学习等领域。例如，基于提取的事实状态与法律状态字段，研究者开发了针对波兰行政法院判决的分类与摘要模型；同时，结构化法律数据如法律引用与法律概念列表，为构建领域特定的预训练语言模型提供了监督信号。这些工作不仅深化了对波兰法律文本的理解，也为全球法律人工智能社区贡献了重要的方法论与资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集