Multi-state Bar Examination (MBE) questions

Name: Multi-state Bar Examination (MBE) questions
Creator: 阿尔伯特·路德维希斯·弗莱堡大学，德国；ELLIS学院，图宾根，德国
Published: 2025-04-07 19:31:22
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

https://huggingface.co/datasets/HolySaint/ MBE-exam-questions

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用了由阿尔伯特·路德维希斯·弗莱堡大学和ELLIS学院共同收集的1,514条关于多州律师资格考试（MBE）的问题数据集。该数据集由网上学习资料整理而来，包含了问题正文、四个可选答案以及正确答案的解释。为了提高模型对法律问题的推理能力，研究团队采用了监督微调（SFT）的方法对LLama 2 7B和LLama 3 8B模型进行训练。数据集经过精心整理，部分数据被转化为IRAC（问题、规则、应用、结论）格式，以指导模型进行结构化的推理过程。该数据集旨在帮助小型语言模型在法律问题回答方面达到更接近人类的性能水平。

This study employs a dataset of 1,514 Multistate Bar Examination (MBE) questions jointly collected by the University of Freiburg (Albert-Ludwigs-Universität Freiburg) and the ELLIS Institute. Sourced from curated online learning materials, the dataset includes the full question text, four multiple-choice options, and explanatory notes for the correct answers. To enhance the model's legal reasoning capabilities, the research team adopted Supervised Fine-Tuning (SFT) to train the LLaMA 2 7B and LLaMA 3 8B models. The dataset was meticulously curated further, with a subset of the data converted into the IRAC (Issue, Rule, Application, Conclusion) format to guide the model through structured reasoning processes. The core objective of this dataset is to assist small language models in achieving performance that closely matches that of human experts in legal question answering tasks.

提供机构：

阿尔伯特·路德维希斯·弗莱堡大学，德国；ELLIS学院，图宾根，德国

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

Multi-state Bar Examination (MBE) questions数据集构建过程涉及从在线学习材料中收集1,514道历年MBE考题，涵盖宪法、合同法、刑法等7个法律领域。研究团队采用双重处理流程：原始版本保留非结构化解释说明，而蒸馏版本则通过Llama 3 (70B)模型将解释重构为标准IRAC框架（问题、规则、应用、结论）。为确保数据质量，研究者严格验证了训练集与2022年JD Advising授权测试集之间的非重叠性，并通过量化LoRA技术实现高效微调。这种构建方法特别注重保持法律专业领域的严谨性，同时探索结构化推理对模型性能的影响。

特点

该数据集的核心特点体现在其专业领域针对性和多维度结构设计。作为法律推理评估基准，所有问题均来自美国多州律师考试真题，具有权威性和实践指导价值。数据样本包含完整四选一选项、专业法律解析及精准标注答案，其中独创性地提供平行版本——原始解释文本与IRAC结构化版本形成对照。特别值得注意的是，数据分布呈现领域不均衡性，如侵权法仅含69题，反映现实考试命题特点。这种设计使数据集既能评估模型的法律知识掌握程度，又能检验结构化推理格式对性能的提升效果。

使用方法

使用该数据集时需遵循标准化评估流程。研究者首先选择生成参数配置（包括JSON/Markdown响应格式、零样本/单样本提示等），随后在未微调模型上建立基线性能。微调阶段采用Q-LoRA技术，在NVIDIA Tesla V100 GPU上以文本补全任务形式进行监督训练，重点关注不同训练样本量（1-225个/领域）的影响。评估时需隔离处理每道测试题，防止上下文泄露，并通过严格解析模型输出的领域判断、选项选择和解释文本三要素。为保障结果可比性，建议参照论文采用的温度参数（0-0.6）和随机种子控制方案，同时监测选项选择偏差等关键指标。

背景与挑战

背景概述

Multi-state Bar Examination (MBE) questions数据集由Albert Ludwigs University Freiburg的研究团队于2025年创建，旨在探索小型语言模型在法律推理任务中的潜力。该数据集包含1,514个MBE考试题目，涵盖7个法律领域，用于监督微调Llama 2 7B和Llama 3 8B模型。研究核心在于验证有限数据集和消费级硬件能否实现接近GPT-4的法律问答性能，同时采用IRAC（Issue, Rule, Application, Conclusion）框架重构解释文本以提升推理结构化程度。该工作为法律领域的小型语言模型应用建立了资源下限基准，推动了可解释性法律AI的发展。

当前挑战

领域挑战方面，MBE数据集需解决法律推理特有的复杂性问题：1) 多步骤逻辑推理要求模型同时掌握法律条文和案例应用；2) 各法律领域知识的高度专业性导致跨领域迁移困难。构建挑战包括：1) 非结构化解释文本需人工转换为标准IRAC格式，涉及语义理解和法律知识验证；2) 数据稀缺性突出，部分法律领域样本不足百例；3) 模型易受选项偏差影响，需通过样本平衡和特殊损失函数设计来缓解。此外，基线模型的幻觉现象（如虚构问题生成）严重干扰答案解析，需设计鲁棒的响应处理机制。

常用场景

经典使用场景

Multi-state Bar Examination (MBE) questions数据集在法律推理领域具有广泛的应用价值，尤其在法律教育和专业资格考试中扮演着重要角色。该数据集通常用于评估大型语言模型在法律推理任务中的表现，特别是在多州律师资格考试（MBE）的模拟场景中。研究者通过该数据集能够系统地测试模型在法律条文理解、案例分析以及逻辑推理等方面的能力。数据集中的问题覆盖了宪法、合同法、刑法、证据法、物权法、侵权法和民事诉讼法等多个法律领域，为模型提供了全面的测试环境。

衍生相关工作

MBE questions数据集催生了一系列重要的相关研究工作。基于该数据集，研究者开发了专门针对法律领域的语言模型，如SaulLM和DISC-LawLLM。这些模型通过在该数据集上的微调，在法律推理任务中展现了卓越的性能。数据集还启发了对法律领域模型偏见的系统性研究，包括选项选择偏好分析和解释一致性评估。此外，围绕该数据集的研究推动了法律领域提示工程的发展，探索了不同响应格式（JSON、Markdown等）对模型表现的影响。这些衍生工作共同推动了法律人工智能研究的深入发展。

数据集最近研究