TriBench-Ko

github2026-05-05 更新2026-05-06 收录

下载链接：

https://github.com/holi-lab/TriBench-Ko

下载链接

链接失效反馈

官方服务：

资源简介：

TriBench-Ko是一个韩语基准数据集，用于评估司法工作流程中LLM的风险。它不仅测量法律知识的准确性，还测量在实际审判工作流程中可能出现的模型风险。数据集包含1,414个二进制项目，采用任务×风险矩阵格式，每个JSON包括评估协议（单次、输入变体、提示变体、重复）。

TriBench-Ko is a Korean benchmark dataset for evaluating LLM risks in judicial workflows. It not only measures the accuracy of legal knowledge, but also assesses potential model risks that may arise in actual trial workflows. The dataset contains 1,414 binary items, adopting a task × risk matrix format, and each JSON entry includes evaluation protocols (single-run, input variant, prompt variant, repetition).

创建时间：

2026-05-05

原始信息汇总

数据集概述：TriBench-Ko

TriBench-Ko 是一个专为评估韩语司法工作流中大语言模型（LLM）风险的基准测试数据集。其核心目标并非仅衡量法律知识准确性，而是侧重评估模型在实际审判流程中可能产生的风险。

评估任务（共4项）

判例摘要生成（Jurisprudence Summarization）
先例检索（Precedent Retrieval）
法律争点提取（Legal Issue Extraction）
证据分析（Evidence Analysis）

风险维度（共8项，归为4类）

不准确性（Inaccuracy）：幻觉、遗漏、法律适用错误
偏见（Bias）：人口统计学偏见、过度顺从
不一致性（Inconsistency）：提示敏感性、非确定性
裁判越权（Adjudicative Overreach）：直接裁判

数据组成

总数量：1,414 个二元判断项（Binary Items）
格式：采用 任务 × 风险 矩阵结构，每个 JSON 文件均包含 eval_protocol 字段（支持 single, input_variant, prompt_variant, repeat 四种协议）。
数据路径：仓库根目录下 TriBench-Ko/ 文件夹。

使用说明

运行方式：支持本地模式（通过 bash main.sh local 执行），可直接指定 Hugging Face 模型或本地模型路径。
关键参数：可通过 --dataset 更改数据集路径，通过 --limit 快速测试子集。
输出文件：运行结果生成在 outputs/ 目录下：
- task_risk_TF_summary_<model>.csv：提供每个模型的 任务 × 风险 性能矩阵。
- answers_TF_detail_<model>.csv：提供每个项目（及变体/重复尝试）的逐项正确/错误结果。

搜集汇总

数据集介绍

构建方式

在司法领域，大型语言模型的应用潜力与风险并存，为系统评估其在审判工作流中的表现，TriBench-Ko应运而生。该数据集采用任务与风险轴交叉的矩阵式设计，共计包含1,414个二元评估样本。每个样本以JSON格式存储，详细规定了评估协议类型（包括单一评估、输入变体、提示变体及重复测试），从而确保评估过程的结构化与标准化。数据集覆盖四大司法任务：判例摘要生成、先例检索、法律争议点提取及证据分析，并结合八项风险维度（如幻觉、遗漏、法条误用、人口统计偏见、过度顺从、提示敏感性、非确定性及越权裁判），形成全面而精细的考核框架。

特点

TriBench-Ko的独特之处在于其超越传统法律知识准确性测量的范畴，旨在深度揭示模型在实际庭审流程中可能引发的安全隐患。其风险评估体系细致入微，不仅关注事实性错误，更将偏见、不一致性及司法越权等隐性风险纳入考量。该数据集以二元判断形式呈现，简化了评分复杂性，同时通过四种评估协议的灵活组合，有效捕捉了模型在不同输入和提示条件下的稳定性与鲁棒性。此外，每项任务均与对应风险项精准匹配，使得评估矩阵能够直观反映模型在特定司法场景下的强项与短板。

使用方法

使用TriBench-Ko评估模型时，用户可借助本仓库提供的标准脚本快速启动。推荐方式为通过主入口脚本main.sh以本地模式运行，只需指定Hugging Face模型标识符与自定义模型标签，即可自动执行全套评估流程。评估结果将生成两份CSV文件：一份提供任务与风险维度的总体性能矩阵，另一份则详尽记录每个样本及变体的正误判断，便于深入分析。用户还可通过调整命令行参数改变数据集路径或限制测试样本数量，以实现快速验证或针对性调试，整体操作便捷且高度可定制。

背景与挑战

背景概述

TriBench-Ko 是由韩国研究机构于2024年创建的大语言模型风险评估基准，旨在模拟司法审判流程中的潜在风险。该数据集聚焦于四大核心任务：法律摘要、判例检索、争议焦点提取与证据分析，并针对不准确性、偏见、不一致性和司法越权等八个风险维度进行系统评估。通过1414个精心设计的二值化样本，TriBench-Ko为司法人工智能的安全性评测提供了标准化框架，其发布于GitHub的完善工具链（包括评估协议与模型运行脚本）显著降低了司法领域大模型研究者的实践门槛，推动了法律科技向可信赖方向的纵深发展。

当前挑战

TriBench-Ko面临的双重挑战在于：其一，司法场景中风险维度的耦合性（如偏见与过度合规可能共存）导致模型在单一审判任务中难以同步规避所有风险；其二，评估协议中input_variant、prompt_variant等变体测试的规模化实施，要求数据集构建时需精确定义语义等价的扰动策略，而判例检索任务对时效性和法条解释一致性的敏感度，进一步加剧了数据标注中隐含的法律专业歧义化解难题。

常用场景

经典使用场景

在自然语言处理与司法人工智能的交叉领域中，TriBench-Ko被广泛用作评估大型语言模型在韩国司法流程中潜在风险的标准测试平台。通过其精心设计的四项评估任务——法理摘要、判例检索、法律争点提取与证据分析——研究者能够系统性地考察模型在模拟真实审判场景时的表现。每项任务均与八类风险轴线（如幻觉、遗漏、人口偏见、过度顺从、提示敏感性、非确定性及越权裁判）交织形成任务-风险矩阵，从而实现对模型能力与安全性的双重诊断。该数据集的经典用法即在于以其1,414个二元评判条目为基底，结合单次、输入变体、提示变体与重复四种评估协议，为司法大模型提供全面的合规性压力测试。

解决学术问题

TriBench-Ko的提出弥补了现有法律基准仅关注知识准确性的重大缺憾，将研究焦点从简单的正确率扩展至模型在实际司法工作流中可能引发的系统性风险。它首次构建了覆盖不准确性、偏见、不一致性与越权裁判四大风险类别的评估框架，使学术界能够量化分析大模型在法理推理中的幻觉倾向、对特定人群的潜在歧视、对错误前提的过度服从以及超越审判权限的越轨行为。该数据集解决了司法AI领域缺乏风险导向基准的瓶颈问题，为后续研究提供了衡量模型安全性的标尺，对推动负责任的法律大模型发展具有里程碑意义。

衍生相关工作

TriBench-Ko的发布催生了一系列聚焦司法大模型安全性的衍生研究。一方面，有工作以其风险矩阵为蓝本，将评估范围扩展至民事与行政法领域，构建了多领域司法风险评估套件。另一方面，基于其发现的模型越权裁判问题，研究者提出了‘审判边界约束’微调方法，通过对抗训练限制模型生成超越权限的法律结论。还有团队利用提示敏感性分析结果，开发了动态提示校准技术，有效降低了不同表述下模型回答的波动性。此外，该数据集的偏见评估数据已被用于训练去偏表示学习器，显著减少了司法模型在种族和性别维度上的不公平倾向。这些工作共同验证了TriBench-Ko作为司法AI安全研究催化剂的学术价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集