thai-bar-exam-judging

Name: thai-bar-exam-judging
Creator: VISTEC-depa AI Research Institute of Thailand
Published: 2026-05-25 15:45:09
License: 暂无描述

Hugging Face2026-05-25 更新2026-05-26 收录

下载链接：

https://huggingface.co/datasets/airesearch/thai-bar-exam-judging

下载链接

链接失效反馈

官方服务：

资源简介：

Thai Bar-Exam Judging Corpus是一个泰语法律论述数据集，源自律师考试准备练习，旨在支持大型语言模型（LLM）作为评分者与人类考官之间稳定性的对比研究。数据集包含匿名化的自由形式泰语法律论述，每篇论述由三位经过泰国律师理事会培训的考官进行评分，并对约三分之二的答案提供了基于跨度的内联评论。八名LLM考生在相同条件下参加相同考试，其答案由相同考官进行盲评。此外，150个答案中的15个由两位非主要考官进行交叉评分，形成了一个三评分者稳定性子集，用于相关论文分析。数据规模约为2.3 MB，包含问题文本、人类考生论述、LLM考生论述、交叉评分和基于跨度的评论等配置文件，以及宽格式三评分者分数矩阵和预计算的人类评分者间一致性指标等衍生文件。数据集适用于泰语法律NLP基准测试、基于跨度的评论建模、评估者间一致性研究以及文本分类和生成任务，但规模较小（基于三个商法问题），不适用于大规模部署评分或分类器训练。数据经过匿名化处理以保护隐私，基于CC-BY 4.0许可证发布。

The Thai Bar-Exam Judging Corpus is a Thai legal argumentation dataset derived from bar exam preparation exercises, aimed at supporting comparative studies on the stability between large language models (LLMs) as scorers and human examiners. It contains anonymized free-form Thai legal arguments, each scored by three examiners trained by the Thai Lawyers Council, with inline span-based comments provided for approximately two-thirds of the answers. Eight LLM candidates took the same exam under identical conditions, and their answers were blindly scored by the same examiners. Additionally, 15 out of 150 answers were cross-scored by two non-primary examiners, forming a three-scorer stability subset for related paper analysis. The dataset has a total size of approximately 2.3 MB, including configuration files such as question texts (3 lines), human candidate arguments (126 lines, corresponding to 42 human candidates × 3 questions), LLM candidate arguments (24 lines, corresponding to 8 LLM models × 3 questions), cross-scoring (30 lines, corresponding to 15 cross-scoring units × 2 cross-scorers), and span-based comments (1164 lines, including 1079 primary comments and 85 cross-comments). It also provides derived files, such as wide-format three-scorer score matrices and precomputed inter-rater agreement metrics (Krippendorff alpha). The dataset is suitable for various tasks, including Thai legal NLP benchmarking, span-based comment modeling, inter-rater agreement studies, and text classification and generation tasks. The data is anonymized to protect privacy, with both scorers and candidates hidden, and is released under the CC-BY 4.0 license. It is applicable for stability research methodology but, due to its small scale (based on three commercial law questions), is not suitable for large-scale deployment of scoring or classifier training.

提供机构：

VISTEC-depa AI Research Institute of Thailand

创建时间：

2026-05-25

搜集汇总

数据集介绍

构建方式

该数据集源自泰国律师资格考试备考练习中的匿名化自由文本法律论文，由三位经律师公会培训的考官对每篇论文进行评分，并对约三分之二的答案进行基于文本片段的锚定内联评注。此外，八位大型语言模型考生在相同条件下参加了同一考试，其答卷由同一考官组以盲评方式打分。在150份答卷中，抽取15份由两位非主考官进行交叉评分，形成了包含三位评分者稳定性评估的子集，为后续的评分者间一致性研究提供了核心数据。

特点

数据集围绕法律文本评分与评估构建，包含多个子集：人类考生与LLM考生的论文作答及其主评分、交叉评分数据，以及大量锚定评注。尤为突出的是，它提供了三位人类考官对同一份答卷的独立评分矩阵，并预计算了Krippendorff Alpha系数，可直接用于评估评分稳定性与解释性差异。评注数据还标注了锚定类型（如常规、单点、孤立或页脚区域），为细粒度批评建模提供了丰富资源。

使用方法

数据集通过Hugging Face的`datasets`库以多配置方式加载，每个子集对应一个独立配置，例如`questions`、`phase1_human`、`spans`等，用户可直接指定配置名与分割进行访问。也可直接读取JSONL文件进行处理。对于研究论文复现，可加载`derived/scores_wide.csv`，利用Krippendorff间隔型实现计算全子集及分问题子集的Alpha值。评注数据中锚定文本根据角色（主评或交叉评）指向不同来源的原文文本字段，使用时需注意偏移量的映射关系。

背景与挑战

背景概述

Thai Bar-Exam Judging Corpus是由泰国研究团队于近期构建的专用数据集，旨在探索大语言模型（LLM）作为裁判的稳定性问题。核心研究问题聚焦于：在泰国律师资格考试模拟场景中，LLM给出的答案能否被人类考官公平评分，以及LLM作为评分者的表现与人类考官之间的可比性。该数据集包含42名人类考生和8个LLM系统对三道商法问题的回答，并由三位经泰国律师公会认证的考官进行评分，其中约三分之二的回答附带基于文本片段的评论注释。通过引入三考官交叉评分机制，数据集为评估评分者间信度（inter-rater agreement）提供了独特资源。其影响力体现在为法律自然语言处理（Legal-NLP）领域提供了一个面向泰语、包含细粒度注释的基准测试，并推动了LLM作为裁判的稳定性方法论研究。

当前挑战

该数据集首先面临着法律领域评估的固有挑战：律师资格考试答案的评分涉及复杂的法律推理和主观判断，不同考官对同一答案可能产生显著分歧（如数据集在解释性题目Q2上的Krippendorff alpha值低至-0.34），这种评分歧义性直接挑战了LLM作为裁判的可靠性。在构建过程中，数据集面临多重技术挑战：OCR清理后的文本存在跨考官版本间的字符级差异，导致基于文本片段的注释需要对不同考官的文本版本独立对齐；注释中出现了多种异常类型如孤立评论（orphan comments）和无锚点评论（point comments），增加了数据清洗的复杂性；此外，为保护隐私需匿名化处理42名人类考生的身份标识和考官署名信息，并移除可能包含个人身份数据的文件名，同时确保交叉评分子集的结构完整性。这些挑战使得数据集虽规模较小（约150条回答）但仍需精细的标准化处理。

常用场景

经典使用场景

Thai Bar-Exam Judging Corpus作为泰语法律自然语言处理的标杆数据集，其最经典的用途在于评估大语言模型（LLM）作为评分者的稳定性与人类评委的一致性。该数据集包含42名人类考生和8个LLM模型在泰语律师资格考试模拟练习中撰写的自由形式法律论述文本，由三位经律师公会培训的评审员进行盲评，并对约三分之二的答卷提供了基于文本片段的详细评注。这一设计使得研究者能够利用其中150份答卷的三重交叉评分子集，借助Krippendorff alpha系数等统计指标，系统性地衡量人类评委之间的评分一致性与LLM评分行为的偏差，从而为法律领域的AI自动评分系统提供可靠的基准测试平台。

实际应用

在实际应用层面，该数据集为法律科技领域提供了高质量的泰语法律文本资源，可直接用于训练和评估面向泰语的法律智能体（Legal AI Agents）。具体而言，其标注的1164条基于文本片段的评审意见可作为训练法学批评模型（Critique Models）的黄金标准，辅助法律从业者自动生成对法律论述的结构化反馈。此外，该数据集的跨评分员稳定性数据被用于开发鲁棒的自动评分系统，以缓解单一人为评分的偏差问题。在司法辅助、法律教育在线平台的智能批改、法律文书质量审核等场景中，这一数据集已成为关键的验证工具，推动着AI在法律专业场景中的可信应用落地。

衍生相关工作

Thai Bar-Exam Judging Corpus的发布催生了一系列相关研究工作。其中最直接的是基于其三重评分矩阵的LLM评分稳定性研究，论文中通过计算不同问题子集下的Krippendorff alpha系数，揭示了LLM评分与人类评委之间一致性在不同评分维度上的差异模式。该数据集的跨评分员标注子集也被用于探索评分者身份识别（Rater Identification）这一前沿课题，尽管其样本量限制了分类模型的训练，但为后续更大规模的研究提供了方法论框架。此外，基于数据集中1164条文本片段的评注，研究者开发了面向泰语法律文本的片段级批评生成方法，推动了法律领域可解释AI的进展，并启发了一系列针对低资源语言的法律NLP基准测试工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集