JudgeDataset

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/tbrugger/JudgeDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含法律源、人类注释以及各种法律方面的详细信息，如跨境影响、权利、义务、可执行性等。数据集的架构具有嵌套字段，用于详细的法律分析和注释。

创建时间：

2025-11-20

原始信息汇总

JudgeDataset 数据集概述

数据集基本信息

数据集名称: JudgeDataset
配置名称: sv-se
数据源地址: https://huggingface.co/datasets/tbrugger/JudgeDataset

数据结构特征

核心字段

instance_id: 字符串类型，实例标识符
prompt: 字符串类型，提示文本
additional_context: 结构化字段，包含法律来源信息
- legal_sources: 法律来源列表
  - opinion_id: 整型，意见标识
  - opinion_text: 字符串类型，意见文本
  - term: 字符串类型，术语

人工标注体系

包含两个标注者：Ann 和 Johannes

标注维度分类

跨境影响

国际影响：包含答案、法律准确性评分和问题

直接或衍生权利

衍生性赋予义务
直接赋予义务
衍生性赋予权利
直接赋予权利

可执行性

由谁执行
如何执行

形式要求

需要同意
需要公证
需要注册
需要书面文件

法律效力

创设义务
创设权利
创设地位
消灭义务
消灭权利
消灭地位
司法解释
修改义务
修改权利
修改地位
规范结构

法律虚构与推定

依赖虚构

法律来源

基于判例法
基于习惯
基于法规
基于制定法

限制或条件

地理限制
程序限制
实质限制
时间限制

私法与公法

私法或公法性质

程序性与实质性

程序性或实质性

公共政策限制

受公共政策限制
因公共政策无效

目的

历史背景
历史影响
起源系统
目的目标

救济与后果

行政法救济
刑法救济
国际法救济
私法救济
公法救济

主体

法律实体
自然人
私有财产
公共财产
国家
第三方

系统分类

权威定义
内部分类
法律领域分类

第三方

第三方义务
第三方权利

标注格式标准

所有标注问题均采用统一结构：

answer: 字符串类型，答案内容
legal_accuracy_score: 字符串类型，法律准确性评分
question: 字符串类型，问题内容

搜集汇总

数据集介绍

构建方式

在法学研究领域，JudgeDataset的构建采用了严谨的法学实证研究方法。该数据集通过系统收集法律意见文本，构建了包含实例标识、法律提示和补充上下文的完整框架。补充上下文部分特别整合了法律渊源信息，涵盖判例编号、法律文本内容和专业术语等核心要素，形成多层次的法律知识体系。数据采集过程注重法律文献的权威性和时效性，确保每个数据单元都具备完整的法律逻辑链条。

特点

该数据集在法学智能评估领域展现出显著的专业特性。其核心特征体现在结构化的人类标注体系，通过多位法学专家对跨境效力、权利义务属性、可执行性等二十余个法律维度的独立评估，构建了多维度的法律准确性评分体系。每个法律问题都配备了专业解答和量化评估，形成了从法律效力到救济措施的完整分析框架。这种精细化的标注体系为法律人工智能研究提供了丰富的监督信号，特别在法律推理和判决预测任务中具有重要价值。

使用方法

在法律人工智能应用场景中，该数据集支持多种研究范式。研究者可通过实例标识检索特定法律案例，利用提示文本构建法律问题分析任务。补充上下文中的法律渊源信息可用于训练法律条文检索模型，而人类标注数据则为法律推理模型的监督学习提供高质量训练样本。数据集支持对法律准确性预测、判决结果分析等任务的端到端训练，同时其结构化设计也便于进行法律知识图谱构建和跨法系比较研究。

背景与挑战

背景概述

JudgeDataset作为法律智能领域的重要语料库，聚焦于司法判决文本的结构化解析与法律推理评估。该数据集由瑞典语法律专家团队构建，其核心研究目标在于通过系统化标注法律概念间的逻辑关系，推动计算法学领域的发展。数据集通过多维度法律要素的精细标注，包括法律效力、执行机制、程序规范等核心法学范畴，为法律文本的自动化分析提供了标准化评估框架，对提升司法系统智能化水平具有显著推动作用。

当前挑战

该数据集致力于解决法律概念自动分类与司法推理建模的复杂性挑战，具体体现为法律条文的多义性解析与判例法系中隐含逻辑的显式化表征。在构建过程中面临标注一致性的严峻考验，不同法域背景的专家对法律要素的判定存在系统性差异，且跨语言法律概念的等效映射需要克服法系传统差异带来的语义鸿沟。此外，法律文本特有的高度抽象性与上下文依赖性，对标注规范的完备性提出了极高要求。

常用场景

经典使用场景

在司法智能研究领域，JudgeDataset通过结构化标注的法律概念分析框架，为法律文本理解任务提供了标准化评估基准。该数据集围绕法律效力、程序要求、权利归属等核心法学概念构建问答对，支持模型对复杂法律条文进行多维度解析。其精心设计的法律准确性评分体系，为衡量模型在法律推理任务中的表现提供了量化依据，成为评估法律领域自然语言处理模型性能的重要工具。

衍生相关工作

基于该数据集的法律概念解析框架，衍生出了多个具有影响力的研究工作。在司法判决预测领域，研究者利用其标注体系构建了更精准的案情要素提取模型；在法律问答系统方向，催生了结合法条推理的深度学习方法。这些工作不仅扩展了数据集的学术价值，还推动了法律人工智能从表层文本处理向深层语义理解的技术转型。

数据集最近研究