lbox/lbox_open

Name: lbox/lbox_open
Creator: lbox
Published: 2025-08-20 11:09:51
License: 暂无描述

Hugging Face2025-08-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lbox/lbox_open

下载链接

链接失效反馈

官方服务：

资源简介：

`lbox_open`是一个来自韩国法律案例的法律AI基准数据集，主要用于法律AI的研究和开发。该数据集包含多个任务，如案件名称分类、法规分类、法律判决预测、案例摘要和判例语料库。数据集的主要语言为韩语。

`lbox_open` is a legal AI benchmark dataset sourced from South Korean legal cases, primarily utilized for legal AI research and development. It comprises multiple tasks including case name classification, statute classification, legal judgment prediction, case summarization, and precedent corpus. The primary language of this dataset is Korean.

提供机构：

lbox

原始信息汇总

数据集卡片 `lbox_open`

数据集描述

主页: https://lbox.kr
仓库: https://github.com/lbox-kr/lbox_open
联系人: Wonseok Hwang

数据集概述

一个来自韩国法律案件的法律AI基准数据集。

语言

韩语

如何使用

python from datasets import load_dataset

案件名称分类任务

data_cn = load_dataset("lbox/lbox_open", "casename_classification") data_cn_plus = load_dataset("lbox/lbox_open", "casename_classification_plus")

法令分类任务

data_st = load_dataset("lbox/lbox_open", "statute_classification") data_st_plus = load_dataset("lbox/lbox_open", "statute_classification_plus")

法律判决预测任务

data_ljp_criminal = load_dataset("lbox/lbox_open", "ljp_criminal") data_ljp_civil = load_dataset("lbox/lbox_open", "ljp_civil")

案件摘要任务

data_summ = load_dataset("lbox/lbox_open", "summarization") data_summ_plus = load_dataset("lbox/lbox_open", "summarization_plus")

先例语料库

data_corpus = load_dataset("lbox/lbox_open", "precedent_corpus")

许可信息

根据 CC BY-NC 4.0 许可

搜集汇总

数据集介绍

构建方式

在司法人工智能领域，构建高质量的法律数据集是推动自然语言处理技术应用的关键。lbox_open数据集基于韩国法律案例精心构建，其构建过程遵循严谨的学术规范，通过系统化地收集和整理韩国法院的裁判文书，形成了涵盖案由分类、法条分类、判决预测、案例摘要及判例语料库等多个子任务的综合性资源。数据以JSON Lines格式组织，并细分为训练集、验证集和测试集，部分任务还提供了额外的测试集以增强评估的鲁棒性，确保了数据在机器学习任务中的直接可用性和结构性。

特点

该数据集以其鲜明的领域特色和丰富的任务维度而著称。作为专注于韩国法律文本的基准数据集，它全面覆盖了民事与刑事法律判决预测、法律条文归类、案件名称识别以及司法文摘生成等核心法律人工智能任务。数据集语言为韩语，为韩语法律自然语言处理研究提供了稀缺的标准化评测基准。其设计包含了基础版与增强版（plus）配置，为不同复杂度的模型训练与对比实验提供了灵活支持，体现了其在推动法律文本理解技术发展方面的重要价值。

使用方法

对于研究人员和开发者而言，利用该数据集进行实验极为便捷。通过Hugging Face的`datasets`库，用户可以直接加载特定的任务配置。例如，调用`load_dataset("lbox/lbox_open", "casename_classification")`即可加载案由分类任务的数据。数据集支持多个独立子任务的加载，包括判决预测、法条分类和摘要生成等，每个任务的数据均已预先分割，便于直接投入模型训练、验证与测试流程，极大地简化了法律AI项目的数据准备环节，加速研究迭代。

背景与挑战

背景概述

随着人工智能技术在法律领域的深入应用，法律智能研究逐渐成为自然语言处理领域的重要分支。lbox/lbox_open数据集由韩国LBox公司于2022年发布，旨在为韩语法律文本处理提供基准评测资源。该数据集聚焦于韩国司法案例，涵盖了案由分类、法条分类、判决预测和案例摘要等多个核心任务，为法律文本的自动化分析与理解奠定了数据基础。其构建不仅推动了韩语法律自然语言处理技术的发展，也为跨语言法律智能研究提供了宝贵的语料支持，促进了法律人工智能系统的实用化进程。

当前挑战

在法律智能领域，韩语法律文本的自动化处理面临独特挑战，包括法律术语的专业性、文本结构的复杂性以及司法推理的逻辑性要求。lbox/lbox_open数据集在构建过程中需克服标注一致性难题，因为法律文本的解读往往依赖领域专家的深度知识。同时，数据集的规模与多样性平衡亦构成挑战，需确保案例覆盖的广泛性与代表性，以支撑模型在真实司法场景中的泛化能力。这些挑战共同指向了法律人工智能在可解释性、鲁棒性及伦理合规性方面的深层需求。

常用场景

经典使用场景

在司法人工智能领域，lbox_open数据集为韩文法律案例的自动化处理提供了基准。该数据集最经典的使用场景在于法律判决预测任务，研究者利用其中的民事与刑事案例文本，训练模型依据案情事实自动推断适用的法律条文及判决结果。这种场景不仅模拟了法律实务中的推理过程，也为评估模型在复杂法律逻辑下的表现设立了标准。

实际应用

在法律科技实践中，lbox_open数据集支撑了智能法律助手与司法效率工具的研发。基于该数据集训练的模型可应用于自动化案件分类、法律条文推荐、判决结果预判以及案例摘要生成等实际环节。这些应用有助于律师快速检索相关判例、辅助法官进行案情分析，从而提升法律服务的可及性与司法系统的工作效能，尤其在处理大量韩文法律文书时体现其价值。

衍生相关工作

围绕lbox_open数据集，已衍生出一系列经典研究工作，主要集中在韩文法律文本的深度表示学习与多任务学习框架上。例如，研究者利用该数据集的案由与法条分类任务，探索了基于Transformer的领域自适应预训练方法；同时在判决预测任务上，结合图神经网络与注意力机制的法律推理模型也得到了验证。这些工作不仅丰富了法律AI的方法论，也促进了韩文与其他语言法律数据集之间的跨域比较研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集