LEXam

github2025-06-04 更新2025-06-05 收录

下载链接：

https://github.com/LEXam-Benchmark/LEXam

下载链接

链接失效反馈

官方服务：

资源简介：

LEXam是一个全面的基准，用于评估AI系统在法律考试问题上的法律推理能力。它包括开放性问题与多项选择题两个子集，涵盖瑞士、欧盟和国际法律考试内容。

LEXam is a comprehensive benchmark for evaluating the legal reasoning capabilities of AI systems on legal examination questions. It consists of two subsets: open-ended questions and multiple-choice questions, covering the content of Swiss, EU and international legal examinations.

创建时间：

2025-05-07

原始信息汇总

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

数据集概述

名称: LEXam
简介: 一个多样且严格的法律AI评估套件，基于瑞士、欧盟和国际法律考试的340道法律考题。
目的: 用于评估大型语言模型（LLM）在法律推理任务上的表现。

数据集内容

子集:
- Open Question (OQ): 开放式问题子集。
- Multiple-Choice Question (MCQ): 四选一选择题子集。

评估方法

非推理型LLM评估:
- 使用Huggingface lighteval工具进行评估。
- 支持多种API端点（如OpenAI、Anthropic、TogetherAI、Gemini等）。
- 支持本地vLLM推理。
推理型LLM评估:
- 使用LiteLLM直接评估，生成思考过程和最终答案。
- 使用专家验证的LLM评分器进行评分。

环境准备

Python版本: 3.11
依赖安装: shell pip install -e .[dev] pip install -r requirements.txt
API密钥设置:
- 必须设置OpenAI API密钥以使用GPT-4o评分器。

许可证

代码: Apache License 2.0
数据: Creative Commons Attribution 4.0 International License

引用

shell @article{fan2025lexam, title={LEXam: Benchmarking Legal Reasoning on 340 Law Exams}, author={Fan, Yu and Ni, Jingwei and Merane, Jakob and Salimbeni, Etienne and Tian, Yang and Hermstr{"u}wer, Yoan and Huang, Yinya and Akhtar, Mubashara and Geering, Florian and Dreyer, Oliver and others}, journal={arXiv preprint arXiv:2505.12864}, year={2025} }

相关链接

Huggingface数据集: https://huggingface.co/datasets/LEXam-Benchmark/LEXam
论文: https://arxiv.org/abs/2505.12864

搜集汇总

数据集介绍

构建方式

LEXam数据集作为法律人工智能领域的重要基准，其构建过程体现了严谨的学术态度。研究团队从瑞士、欧盟及国际法律考试中精选340套试题，涵盖开放式问答和多项选择题两种题型。通过法律专家严格验证的评估流程，确保每道试题的准确性和专业性。数据集采用标准化格式整理，并开放访问权限，为后续研究提供可靠的法律推理评估框架。

特点

LEXam数据集以其多样性和专业性著称，覆盖了多层次的法律知识体系。试题来源横跨不同法域和司法体系，包含开放式问答和多项选择题两种形式，全面考察模型的法律推理能力。数据集特别设计了专家验证的评分机制，采用GPT-4o作为基准评估模型，确保评分过程的权威性。这种多维度、高标准的设计使LEXam成为评估法律AI模型的理想测试平台。

使用方法

LEXam数据集提供了灵活的评估方案，支持通过Huggingface lighteval框架对各类LLM进行统一测试。用户可通过API调用或本地vLLM部署方式评估模型，针对开放式问答和多项选择题分别运行专用评估脚本。对于具备推理能力的模型，数据集提供独立的评估流程，可解析模型生成的思维过程和最终答案。评估结果经过专家级LLM评判系统验证，确保评分的科学性和可靠性。

背景与挑战

背景概述

LEXam数据集由瑞士、欧盟及国际法律领域的专家学者联合构建，于2025年正式发布，旨在为法律人工智能领域提供一套严谨且多样化的评估基准。该数据集收录了340套法律考试题目，涵盖开放式问答与多项选择题两种形式，其核心研究问题聚焦于大语言模型在法律推理能力上的系统性评估。作为首个跨法系、多语种的法律专业评估工具，LEXam通过专家验证机制显著提升了评估结果的权威性，对推动法律智能系统的实用化进程具有里程碑意义。

当前挑战

构建LEXam数据集面临双重挑战：在领域问题层面，法律文本固有的专业性和语境依赖性导致传统自然语言处理模型难以准确捕捉条文间的逻辑关联，而不同司法管辖区的法律体系差异进一步增加了跨域推理的复杂度；在技术实施层面，数据收集需协调多国法律专家的评审意见，题目设计需平衡专业深度与评估普适性，且专家验证环节依赖GPT-4o等先进模型进行自动化初筛，其高昂的计算成本与人工复核的耗时性构成显著瓶颈。

常用场景

经典使用场景

在法律人工智能领域，LEXam数据集被广泛用于评估大型语言模型在法律推理任务中的表现。该数据集涵盖了瑞士、欧盟及国际法考试中的340道题目，包括开放式问题和多项选择题，为研究者提供了一个多样且严谨的评估平台。通过LEXam，研究者能够系统地测试模型在法律条文理解、案例分析和逻辑推理等方面的能力，从而推动法律AI技术的发展。

解决学术问题

LEXam数据集解决了法律AI研究中缺乏高质量评估基准的问题。传统法律数据集往往局限于特定司法管辖区或任务类型，而LEXam通过整合多国法律考试题目，提供了一个全面且标准化的评估框架。这不仅有助于量化模型在法律推理上的性能差异，还为研究法律文本的语义理解和复杂推理机制提供了宝贵资源。

衍生相关工作

LEXam的发布催生了一系列围绕法律AI的研究工作。例如，基于该数据集的评估结果，研究者提出了针对法律文本优化的预训练方法和推理增强技术。同时，LEXam也被用于探索多模态法律AI系统，结合文本和案例图像进行更全面的法律分析。这些工作进一步拓展了法律AI的应用边界和技术深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集