日本司法考试问答数据集

Name: 日本司法考试问答数据集
Creator: 庆应义塾大学
Published: 2026-01-07 00:13:47
License: 暂无描述

arXiv2026-01-07 更新2026-01-08 收录

下载链接：

https://github.com/shinandrew/self_verification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由庆应义塾大学构建，完整复现了日本司法考试的原始题型结构和评分标准，包含2019-2023年的训练集和2024年测试集共460道考题。数据来源于日本法务省公布的历年真题，涵盖宪法、民法和刑法三大领域，每道题目均保留复合命题联合判断的考试特色。通过严格遵循原始格式的标注方式，该数据集支持模型在真实考试环境下进行端到端训练，主要应用于法律专业领域的自动问答系统开发，旨在解决大语言模型在结构化专业考试中格式适配和联合推理的难题。

This dataset was constructed by Keio University, which fully reproduces the original question structure and scoring criteria of the Japanese bar examination. It contains a total of 460 questions, including the training set spanning 2019 to 2023 and the 2024 test set. The data is sourced from past official examination questions published by the Ministry of Justice of Japan, covering three core legal disciplines: constitutional law, civil law, and criminal law. Each question retains the examination feature of joint judgment on compound propositions. By strictly adhering to the original annotation format, this dataset supports end-to-end model training in a real examination environment. It is primarily applied to the development of automated question answering systems in the legal professional field, aiming to solve the challenges of format adaptation and joint reasoning faced by large language models (LLMs) in structured professional examinations.

提供机构：

庆应义塾大学

创建时间：

2026-01-07

原始信息汇总

数据集概述

数据集名称

Japanese Bar Exam LLM: Fine-Tuning & Self-Verification 数据集

数据集来源

该数据集是研究论文《Self-Verification is All You Need to Pass the Japanese Bar Examination》中构建和使用的数据集。

数据集描述

核心内容：该数据集是用于日本司法考试（短答式）的问答数据集。
格式特点：数据集忠实复制了原始考试格式，包含复杂的多命题约束。
主要用途：用于训练和评估大型语言模型在日本司法考试（短答式）上的表现，特别是结合微调和自我验证机制。

数据集获取

官方存储地址：Hugging Face 平台上的 shinysup/JBE-MC-original-format 仓库。

数据集使用

训练数据：包含 R1 至 R5 年份的考试数据。
测试数据：包含 Reiwa 6 (R6) 年份的考试数据。
数据处理：研究代码会自动从 Hugging Face 下载该数据集，并将其格式化为 OpenAI JSONL 格式以进行微调。

相关研究

论文链接：Self-Verification is All You Need to Pass the Japanese Bar Examination
方法：研究提出了一种方法，使用微调的 GPT-4.1 模型和专门的自我验证机制，在不改变原始问题格式的情况下，使模型能在日本司法考试（短答式）中获得及格分数。

搜集汇总

数据集介绍

构建方式

在专业法律评估领域，构建高质量数据集对于准确衡量模型能力至关重要。日本司法考试问答数据集的构建严格遵循了原始考试的格式与评分标准，通过收集2019年至2024年日本法务省发布的实际考题，将2024年试题作为测试集，其余年份用于训练。每个数据实例完整保留了考试中的多命题联合评估结构，答案格式如数字序列或组合选项均与官方要求一致，并标注了学科类别、年份及分值，从而确保了数据集在结构和评估尺度上对真实考试的高度复现。

特点

该数据集的核心特点在于其格式忠实性与评估真实性。与以往将复杂考题分解为独立真假判断的数据集不同，本数据集严格维持了日本司法考试中特有的多命题联合决策框架，要求模型对多个相互关联的陈述进行整体推理，并输出符合严格格式约束的答案。这种设计使得评估能够直接反映模型在原始考试规则下的综合法律推理能力，而非仅检验局部事实判断，从而为衡量模型在高压专业考试中的真实表现提供了可靠基准。

使用方法

在模型训练与评估中，该数据集主要用于格式对齐的监督微调。研究人员基于此数据集对大型语言模型进行微调，使其学习在原始考试格式下生成正确答案。进一步地，可结合自验证推理策略，在推断阶段让同一模型对其初始预测进行一致性校验，通过额外的前向传递修正格式错误或局部不一致，从而提升答案的全局一致性。该方法强调在真实考试结构和评分规则下评估模型，为法律领域的高风险推理任务提供了有效的训练与评测框架。

背景与挑战

背景概述

随着大语言模型在通用自然语言处理任务中展现出卓越能力，其在高度专业化领域，特别是法律推理方面的性能仍面临显著挑战。日本司法考试作为一项极具难度的法律基准测试，不仅要求模型具备深厚的法律知识，还需严格遵循涉及多个命题联合评估的复杂答案格式。在此背景下，由庆应义塾大学研究人员于2026年构建的日本司法考试问答数据集应运而生，该数据集忠实复现了考试的原生格式与评分标准，旨在推动大语言模型在法律专业推理任务中的可靠性能评估。该数据集的创建标志着模型首次在不改变原始问题结构与评分规则的前提下通过日本司法考试，为法律人工智能领域提供了关键的评估基准。

当前挑战

日本司法考试问答数据集所应对的核心挑战在于解决法律领域内复杂多命题联合推理与严格格式遵从的问题。传统方法通过将考试问题分解为独立真伪判断简化学习，但未能保留原始考试中命题间的交互约束与组合评分规则，导致模型在真实考试环境下表现不佳。在数据集构建过程中，主要挑战包括如何从日本法务省获取历年实际考题并确保其格式的完整复现，以及如何在有限数据规模下维持命题间的联合评估结构，避免因分解监督而损失全局一致性。这些挑战凸显了在专业高风险任务中，保持任务本真格式对于模型能力评估的重要性。

常用场景

经典使用场景

在法学自然语言处理领域，日本司法考试问答数据集为评估大型语言模型在专业法律推理任务中的性能提供了关键基准。该数据集最经典的使用场景是作为训练和测试平台，用于验证模型在真实日本司法考试格式下的表现。研究者通过该数据集能够模拟考试环境，要求模型对涉及宪法、民法和刑法等多个法律领域的复杂命题进行联合评估，并严格遵循原始评分规则。这种使用方式不仅检验了模型的法律知识掌握程度，更深入评估了其在多命题约束下保持全局一致性的推理能力，为法律人工智能的发展设立了高标准。

衍生相关工作

该数据集的构建与发布衍生了一系列聚焦于专业法律推理的经典研究工作。其直接推动了自我验证微调策略的发展，证明了单一模型通过答案条件化验证可在不增加参数的情况下显著提升考试通过率。同时，该数据集促使学界深入比较了多智能体推理、基于分解的监督等多种替代策略在真实考试格式下的有效性，揭示了在严格约束任务中保持全局一致性的重要性。这些工作共同深化了对格式忠实监督与模型内部知识提取机制的理解，为后续在论文式考试等更复杂法律任务上的研究指明了方向。

数据集最近研究