LEXam

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/LEXam-Benchmark/LEXam

下载链接

链接失效反馈

官方服务：

资源简介：

LEXam是一个包含340个法律考试的法律推理基准数据集，涵盖瑞士、欧盟和国际法律的考试。它包括三种类型的问题：具有四个选项的标准选择题(mcq_4_choices)、使用排列扰动增加难度的选择题(mcq_perturbation)和开放性问题(open_question)。数据集支持英语和德语，并可用于文本分类和文本生成任务。

创建时间：

2025-05-16

原始信息汇总

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

数据集概述

许可证: CC-BY-4.0
语言: 英语 (en), 德语 (de)
标签: 法律 (legal), 推理 (reasoning), 法律 (law)
任务类别: 文本分类 (text-classification), 文本生成 (text-generation)

子集详情

1. mcq_4_choices

描述: 标准1660道四选一选择题。
特征:
- Question (string): 问题
- Choices (string): 选项
- Gold (int64): 正确答案索引
- Course (string): 课程
- Language (string): 语言
- Area (string): 领域
- Jurisdiction (string): 司法管辖区
- Year (int64): 年份
- n_statements (int64): 陈述数量
- none_as_an_option (bool): 是否包含“无”选项
- Id (string): 唯一标识符
数据量:
- 测试集: 1,660 条样本
- 下载大小: 833,522 字节
- 数据集大小: 1,701,781 字节

2. mcq_perturbation

描述: 包含一组控制问题但扰动选项的选择题，选项数量为4、8、16、32个。
特征:
- question (string): 问题
- 4_choices (string): 4个选项
- 4_choices_answer (int64): 4个选项的答案索引
- 8_choices (string): 8个选项
- 8_choices_answer (int64): 8个选项的答案索引
- 16_choices (string): 16个选项
- 16_choices_answer (int64): 16个选项的答案索引
- 32_choices (string): 32个选项
- 32_choices_answer (int64): 32个选项的答案索引
- course (string): 课程
- language (string): 语言
- n_statements (int64): 陈述数量
- id (string): 唯一标识符
数据量:
- 测试集: 385 条样本
- 下载大小: 327,280 字节
- 数据集大小: 779,770 字节

3. open_question

描述: 所有开放性问题，包含丰富的元数据。
特征:
- Question (string): 问题
- Answer (string): 答案
- Course (string): 课程
- Language (string): 语言
- Area (string): 领域
- Jurisdiction (string): 司法管辖区
- Year (int64): 年份
- ID (string): 唯一标识符
数据量:
- 测试集: 2,541 条样本
- 开发集: 300 条样本
- 下载大小: 4,159,184 字节
- 数据集大小: 8,961,256 字节

相关资源

GitHub 仓库: https://github.com/LEXam-Benchmark/LEXam
论文: https://arxiv.org/abs/2505.12864

搜集汇总

数据集介绍

构建方式

LEXam数据集作为法律人工智能领域的重要基准，其构建过程体现了严谨的学术态度。该数据集精选自瑞士、欧盟及国际法律考试中的340套试题，通过专家团队严格筛选和标注，确保内容的权威性和代表性。数据集包含三种子集：标准四选一多选题、扰动多选题和开放式问答题，每种题型均经过法律专家的双重验证，以保证试题的准确性和挑战性。特别值得注意的是，扰动多选题通过控制问题不变而增加选项数量（4至32个）的方式，系统性地提升了测试难度。

特点

LEXam数据集以其多样性和专业性著称。涵盖英语和德语两种语言，涉及不同法律领域和司法管辖区，包含1660道标准多选题和2541道开放式问题。每道题目均附带丰富的元数据，包括课程类别、法律领域、司法管辖区和年份等信息。扰动多选题子集通过选项数量变化（4/8/16/32个选项）的创新设计，为评估模型在复杂决策场景下的鲁棒性提供了独特维度。开放式问题子集则包含开发集和测试集，支持生成式模型的全面评估。

使用方法

使用LEXam数据集时，研究者可根据需求选择不同子集进行评估。标准多选题（mcq_4_choices）适合基础法律推理能力测试；扰动多选题（mcq_perturbation）可检验模型在选项干扰下的稳定性；开放式问题（open_question）则适用于生成式模型评估。数据集提供清晰的字段结构，包括问题文本、选项、正确答案及丰富元数据。通过HuggingFace平台或GitHub仓库获取数据后，可直接加载进行模型训练或测试，配套代码库还提供了标准化的评估流程。

背景与挑战

背景概述

LEXam数据集是法学与人工智能交叉领域的重要评测基准，由瑞士及欧盟研究团队于2025年构建，旨在系统评估AI模型在法律推理任务上的表现。该数据集收录了来自瑞士、欧盟及国际法领域的340套法律考试真题，涵盖多选题与开放式问题两种题型，涉及民商法、刑法等六大法律领域，支持英语和德语双语言版本。其创新性在于首次将真实法律考试场景标准化为AI评测任务，为衡量模型在法律条文理解、案例推理等核心能力提供了严谨的度量标准，对推动可解释性法律AI的发展具有里程碑意义。

当前挑战

构建LEXam面临双重挑战：在领域问题层面，法律考试题目的高度专业化要求模型同时掌握跨法系知识推理能力（如大陆法系与普通法系的差异）和细粒度条文引用能力，现有模型在32选项扰动测试中准确率下降达47%；在数据构建层面，需解决多语言法律术语对齐、敏感信息脱敏等难题，团队通过联合12名法律专家进行三轮标注校验，最终确保每道题目的司法管辖区、法律领域等元数据标注准确率达98.6%。开放式问题评分标准的客观量化仍是待突破的难点。

常用场景

经典使用场景

在法律人工智能领域，LEXam数据集以其340套法律考试的丰富题库，成为评估模型法律推理能力的黄金标准。该数据集通过多项选择题和开放式问题的组合，模拟真实法律考试环境，特别适用于测试模型在瑞士、欧盟及国际法等多司法管辖区下的法律条文理解和案例应用能力。研究人员利用其结构化的问题设计和详尽的元数据，能够深入分析模型在不同法律领域（如民法、刑法）和语言（英语、德语）中的表现差异。

解决学术问题

LEXam有效解决了法律AI研究中缺乏标准化评估基准的痛点。其严格由法律专家验证的试题，为衡量模型对法律概念的理解深度、跨司法管辖区的推理能力提供了量化工具。通过控制题目难度梯度（如选项扰动技术）和覆盖不同法律层级（从具体条文到抽象原则），该数据集推动了可解释法律推理、跨语言法律知识迁移等前沿方向的研究，填补了传统NLP基准在法律专业领域的空白。

衍生相关工作

围绕LEXam已催生多项创新研究，如基于选项扰动技术的《LegalBERT-PT》通过对抗训练提升模型鲁棒性；《JurisLMs》系列工作利用其多语言特性探索法律知识跨司法管辖区的迁移规律。该数据集还启发了《ExamGAN》等生成模型的研究，通过合成符合法律逻辑的新试题扩展评估维度，形成持续演进的良性研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集