Korean Canonical Legal Benchmark (KCL)

github2026-01-23 更新2026-01-24 收录

下载链接：

https://github.com/lbox-kr/kcl

下载链接

链接失效反馈

官方服务：

资源简介：

KCL旨在分离知识覆盖与基于证据的推理。它支持两个互补的评估轴：1. 知识覆盖：无额外上下文的性能。2. 基于证据的推理：提供每个问题的支持先例上下文中的性能。对于论文问题，KCL还提供了实例级别的评分标准，以实现LLM-as-a-Judge自动评分。

KCL aims to disentangle knowledge coverage from evidence-based reasoning. It supports two complementary evaluation axes: 1. Knowledge coverage: performance without additional context. 2. Evidence-based reasoning: performance when provided with supporting precedent context for each question. For essay questions, KCL also provides instance-level grading criteria to enable automatic scoring via LLM-as-a-Judge.

创建时间：

2026-01-22

原始信息汇总

Korean Canonical Legal Benchmark (KCL) 数据集概述

数据集简介

Korean Canonical Legal Benchmark (KCL) 是一个用于评估大型语言模型在韩国法律领域能力的基准数据集。其核心设计目标是将知识覆盖度与基于证据的推理能力区分开来。

核心设计目标

该数据集支持两个互补的评估维度：

知识覆盖度：在没有额外上下文的情况下评估模型性能。
基于证据的推理：在提供每个问题对应的支持性判例作为上下文的情况下评估模型性能。

对于论述题，KCL进一步提供了实例级别的评分标准，以支持LLM-as-a-Judge的自动化评分。

数据集构成

数据集包含两个主要部分：

KCL-Essay (开放式生成)
- 包含169个问题。
- 提供550个支持性判例。
- 包含2,739个实例级别的评分标准。
KCL-MCQA (五选一选择题)
- 包含283个问题。
- 提供1,103个支持性判例。

预期用途

通过比较无判例和有判例的设置，分离知识掌握与推理能力。
利用与问题对齐的黄金判例进行法律检索增强生成研究，以建立检索器/阅读器的性能上限。
通过评分标准级别的诊断，对论述题输出提供细粒度反馈。

获取与使用

数据集地址：https://huggingface.co/datasets/lbox/kcl
相关论文：https://arxiv.org/abs/2512.24572 (该论文已被EACL 2026主会短文录用)

许可信息

数据集及其评估代码遵循 CC BY-NC 4.0 许可协议。

搜集汇总

数据集介绍

构建方式

在法学与计算语言学的交叉领域，Korean Canonical Legal Benchmark (KCL) 的构建体现了严谨的学术设计。该数据集通过系统收集韩国法律条文与判例，精心编制了开放式论述题与多项选择题两大组件。构建过程中，研究者为每道题目精准匹配了相关的支持性判例作为上下文证据，并针对论述题开发了细粒度的评分量规。这种结构化的构建方式旨在分离法律知识覆盖与证据推理能力，为评估语言模型在法律领域的表现提供了可靠的基础。

特点

KCL 数据集的核心特征在于其双轴评估框架，能够清晰地区分模型的法律知识储备与基于证据的推理能力。数据集包含 KCL-Essay 和 KCL-MCQA 两个部分，分别涵盖开放式生成与五选一问答任务，并配备了丰富的支持性判例和实例级评分量规。这一设计不仅支持在有无上下文证据的两种设置下进行对比评估，还为法律检索增强生成研究提供了黄金标准，使得对模型输出的诊断能够达到前所未有的精细度。

使用方法

使用 KCL 数据集进行评估时，需通过官方代码库配置运行环境，并依据任务类型调用相应的推理与评估脚本。用户可以为模型提供或不提供每道题目对应的支持性判例，以分别考察其知识覆盖与证据推理能力。对于论述题部分，自动化评分机制能够依据预定义的量规对模型生成内容进行细粒度评判。该框架同时支持云端 API 模型与本地部署的模型，通过灵活的配置文件适配不同的实验设置，确保了评估过程的高效与可复现性。

背景与挑战

背景概述

在自然语言处理与计算法学交叉领域，对大型语言模型在法律场景下的能力评估长期面临知识记忆与推理能力相互纠缠的困境。韩国典型法律基准数据集由LBox研究团队于2025年构建，其研究成果已被EACL 2026会议收录。该数据集旨在解耦知识覆盖与证据驱动推理两个核心维度，通过提供开放式论述题与多项选择题两种任务形式，并配备精确对齐的先例支持材料，为评估模型在韩国法律体系下的真实推理能力建立了标准化测试框架。这一创新性设计推动了法律人工智能从单纯的知识检索向深度逻辑推理的范式转变，为后续法律检索增强生成及相关研究提供了关键的基础设施。

当前挑战

该数据集致力于解决法律领域大型语言模型评估中的根本性挑战，即如何区分模型对静态法律知识的记忆能力与动态情境下的证据链推理能力。构建过程中的主要挑战体现在多维度标注体系的建立：首先需要从庞杂的韩国法律文献中筛选具有代表性的典型问题，并为其精准匹配权威司法先例作为支撑证据；其次需为开放式论述题设计涵盖逻辑严谨性、法律适用准确性等多层次的细粒度评分准则，以实现自动化评估的可靠性与公正性。这些挑战的克服确保了数据集在衡量模型法律推理本质能力方面的科学性与有效性。

常用场景

经典使用场景

在自然语言处理与法律人工智能交叉领域，Korean Canonical Legal Benchmark（KCL）为评估大型语言模型在韩国法律语境下的推理能力提供了标准化测试平台。其经典使用场景聚焦于模型性能的精细化诊断，通过对比模型在无额外上下文（知识覆盖）与提供每问题支持性判例（证据基础推理）两种设置下的表现，有效分离模型对法律知识的记忆能力与基于证据的逻辑推理能力。这一设计使得研究者能够精准识别模型在法律任务中的薄弱环节，为后续优化提供明确方向。

衍生相关工作

围绕KCL数据集，已衍生出多个重要的研究方向与经典工作。其双轴评估范式启发了对法律及其他专业领域大模型能力解耦的进一步研究。在检索增强生成领域，基于KCL提供的黄金判例，研究者能够更精准地评估不同检索与融合策略的效能边界。同时，其实例级评分细则为基于大模型的自动化评估与反馈系统设立了新基准，推动了可解释性法律人工智能的发展。这些工作共同深化了我们对专业领域大模型能力构成的理解与应用边界的探索。

数据集最近研究