LEGAR_BENCH

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/Chaeeun-Kim/LEGAR_BENCH

下载链接

链接失效反馈

官方服务：

资源简介：

LEGAR BENCH是第一个大规模韩国法律案件检索基准，包含两个数据集版本，以满足不同的评估需求：LEGAR BENCH_standard和LEGAR BENCH_stricter。标准版本旨在对各种犯罪进行全面评估，包含411种犯罪类型，分为33个类别，并在120万件案件的检索库中进行评估。更严格的版本考虑了同一犯罪类型内更多的事实细节和法律问题，使用102个犯罪特定的法律因素和443个相应的选项对17万件案件进行了标注，并将案件按共享标准分组。

LEGAR BENCH is the first large-scale Korean legal case retrieval benchmark. It contains two dataset versions to meet different evaluation needs: LEGAR BENCH_standard and LEGAR BENCH_stricter. The standard version aims to conduct comprehensive evaluations across various crimes, covering 411 crime types categorized into 33 categories, and is evaluated over a retrieval corpus of 1.2 million cases. The stricter version takes into account more factual details and legal issues within the same crime type: it annotates 170,000 cases using 102 crime-specific legal factors and 443 corresponding options, and groups cases according to shared criteria.

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

LEGAR BENCH作为首个大规模韩文法律案例检索基准数据集，采用双层架构设计以满足不同评估需求。标准版本（LEGAR BENCH_standard）系统性地整合了33类刑事犯罪下的411种犯罪类型，构建了涵盖120万案例的检索池，通过精细分类体系实现犯罪类型的多维度覆盖。严格版本（LEGAR BENCH_stricter）则基于160种犯罪类型，采用犯罪特异性法律要素标注框架，对17万案例进行深度标注，每个案例标注包含102个法律要素及443个对应选项，通过要素组合实现案例的精准分组。

特点

该数据集最显著的特征在于其层级化设计理念。标准版本通过犯罪类型-类别的树状分类体系，全面覆盖交通肇事、伤害暴力、性犯罪等33个刑事领域，体现韩国刑事法律体系的完整性。严格版本创新性地引入法律要素标注系统，例如在毒品犯罪中标注犯罪收益、物质名称等要素，在强奸罪中标注受害者关系、犯罪地点等要素，通过要素组合构建案例间的可比性，为法律实务研究提供细粒度分析维度。两个版本相互补充，形成宏观覆盖与微观分析相结合的研究范式。

使用方法

使用该数据集时需根据研究目标选择适配版本。标准版本适用于法律检索系统的宏观性能评估，可通过犯罪类型分类体系构建检索任务，测试系统对多样化犯罪场景的响应能力。严格版本则适合法律量刑预测、相似案例匹配等深度研究，研究者可基于标注要素构建特征向量，通过要素组合检索具有特定法律特征的案例集群。数据集采用结构化存储格式，犯罪类型与法律要素均以标准化编码呈现，支持通过编程接口实现批量数据加载与要素筛选。

背景与挑战

背景概述

LEGAR BENCH是首个大规模韩文法律案例检索基准数据集，由两个版本组成，分别针对不同的评估需求。该数据集的创建旨在解决韩国法律领域中的案例检索问题，特别是刑事犯罪案例的分类与检索。数据集涵盖了411种不同的犯罪类型，分布在33个刑事类别中，检索池包含120万案例，为法律研究和实践提供了丰富的资源。LEGAR BENCH的推出标志着韩国法律信息处理领域的重要进展，为法律智能系统的开发和应用奠定了坚实基础。

当前挑战

LEGAR BENCH面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，数据集需解决法律案例检索中的高精度需求，尤其是在处理多样化的犯罪类型和复杂的法律条文时。构建过程中的挑战则包括数据标注的复杂性，特别是在LEGAR BENCH_stricter版本中，需要对170K案例进行详细的犯罪特定法律因素标注，涉及102个法律因素和443个对应选项，这对数据的一致性和准确性提出了极高要求。

常用场景

经典使用场景

LEGAR BENCH作为首个大规模韩文法律案例检索基准，其标准版(LEGAR BENCH_standard)覆盖33类刑事犯罪下的411种具体罪名，构建了120万案例的检索池。该数据集典型应用场景包括法律信息检索系统的性能评估，特别是在多罪名交叉检索、相似案例匹配等任务中，为算法提供了涵盖交通肇事、性犯罪、盗窃抢劫等全领域犯罪类型的标准化测试环境。

解决学术问题

该数据集有效解决了法律人工智能领域缺乏韩语细粒度罪名分类基准的难题，通过结构化犯罪类型标签体系，支持法律文本理解、跨罪名语义关联分析等研究。其严格的案例标注规范为评估法律检索模型在真实场景下的鲁棒性提供了科学依据，尤其针对韩国法律体系中特有的罪名分类和量刑因素进行了系统化建模。

衍生相关工作

该数据集已衍生出多项法律AI重要研究，包括基于多要素联合编码的量刑推荐模型、跨罪名对比学习框架等。其中针对毒品犯罪开发的层次化检索系统，通过融合物质种类与数量等要素，实现了90%以上的同类案例召回率，被韩国最高法院电子图书馆列为推荐技术方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集