LEXAM

Name: LEXAM
Creator: 苏黎世联邦理工学院
Published: 2025-05-19 16:48:12
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://lexam-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

LEXAM是一个多语言法律推理基准数据集，旨在评估大型语言模型(LLMs)在法律领域的推理能力。数据集包含来自苏黎世大学法学院116门课程中的340场法律考试的4886个问题，包括2841个开放式长篇问题和2045个多项选择题。每个开放式问题都配有参考答案和明确的规范性指导，概述了预期的法律推理链。LEXAM跨越广泛的国内和国际法律领域，为评估法律推理技能提供了一个稳健的基准。

LEXAM is a multilingual legal reasoning benchmark dataset designed to evaluate the reasoning capabilities of large language models (LLMs) in the legal domain. The dataset comprises 4,886 questions from 340 legal exams across 116 courses offered by the University of Zurich’s Faculty of Law, including 2,841 open-ended long-form questions and 2,045 multiple-choice questions. Each open-ended question is accompanied by a reference answer and clear normative guidelines outlining the expected legal reasoning chain. LEXAM spans a wide range of domestic and international legal domains, providing a robust benchmark for assessing legal reasoning skills.

提供机构：

苏黎世联邦理工学院

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

LEXAM数据集构建于340门法学考试，涵盖116门法学课程，包含4,886个法学考试问题，包括2,841个开放式问题和2,045个多项选择题。数据来源于苏黎世大学法学院2016至2023年的公开考试资料，经过法律专家整理和标注，确保问题覆盖78个法律子领域。开放式问题配有参考答案和明确的推理指导，多项选择题则通过随机生成干扰项来平衡难度。

特点

LEXAM数据集以其多语言（英语和德语）和多法域（瑞士、国际和通用法律）覆盖著称，特别强调长文推理和结构化法律分析。数据集中的开放式问题平均长度为174.3词，参考答案为246.6词，挑战模型的多步推理能力。多项选择题通过扰动测试（4至32个选项）验证模型的鲁棒性，结果显示模型性能随选项增加显著下降。

使用方法

LEXAM数据集适用于评估大型语言模型在法律推理中的表现，尤其关注过程正确性和结果正确性。使用GPT-4o作为评判工具，通过专家验证确保评分一致性。数据集支持少样本学习，开发集包含300个问题，测试集包含2,541个问题。多项选择题通过准确率评估，而开放式问题则通过LLM-as-a-Judge范式进行评分，结合人类专家验证以确保可靠性。

背景与挑战

背景概述

LEXAM是由苏黎世大学法学院的研究团队于2025年创建的法律推理基准测试数据集，旨在评估大型语言模型在复杂法律推理任务中的表现。该数据集源自340份真实法学院考试试卷，涵盖116门课程，包含4,886道英文和德文的法律考题，其中2,841道为开放式问答题，2,045道为选择题。LEXAM的独特之处在于它不仅提供参考答案，还为开放式问题配备了明确的法律推理指导，如问题识别、规则回忆和规则应用等。该数据集对法律人工智能领域具有重要意义，为评估模型在法律推理方面的能力提供了全面且具有挑战性的测试平台。

当前挑战

LEXAM数据集面临的主要挑战包括：1) 领域问题的挑战：法律推理需要复杂的多步骤分析能力，当前大型语言模型在开放式问题上的表现显著不足，特别是在需要结构化法律推理的任务中；2) 构建过程的挑战：数据集需要处理多语言（英文和德文）法律文本，确保问题覆盖不同法律领域（私法、公法、刑法等）和司法管辖区（瑞士、国际法等），同时保持问题难度的平衡。此外，评估开放式问题的质量也面临挑战，需要开发可靠的自动评分方法以替代人工专家评估。

常用场景

经典使用场景

LEXAM数据集作为法律推理领域的专业基准，其最经典的使用场景在于评估大型语言模型（LLM）在复杂法律问题上的表现。数据集包含的2,841道开放式问题和2,045道选择题，覆盖了瑞士、欧洲及国际法的多个领域，能够全面测试模型的法律知识掌握程度和推理能力。特别是在开放式问题中，模型需要展示出结构化、多步骤的法律推理能力，例如问题识别、规则回忆和规则应用等。这种场景不仅适用于学术研究，也为法律教育提供了实用的评估工具。

衍生相关工作

LEXAM数据集已经衍生出多项相关研究和工作。例如，基于LEXAM的评估框架，研究者开发了LLM-as-a-Judge范式，用于自动化评估模型生成的法律推理步骤。此外，LEXAM还启发了对多语言法律推理能力的研究，特别是在德语和英语法律文本处理上的表现。数据集还被用于研究模型在不同法律领域（如私法、公法和刑法）中的表现差异，为法律AI的领域适应性提供了重要参考。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集