five

LEXAM|法律推理数据集|自然语言处理数据集

收藏
arXiv2025-05-19 更新2025-05-21 收录
法律推理
自然语言处理
下载链接:
https://lexam-benchmark.github.io/
下载链接
链接失效反馈
资源简介:
LEXAM是一个多语言法律推理基准数据集,旨在评估大型语言模型(LLMs)在法律领域的推理能力。数据集包含来自苏黎世大学法学院116门课程中的340场法律考试的4886个问题,包括2841个开放式长篇问题和2045个多项选择题。每个开放式问题都配有参考答案和明确的规范性指导,概述了预期的法律推理链。LEXAM跨越广泛的国内和国际法律领域,为评估法律推理技能提供了一个稳健的基准。
提供机构:
苏黎世联邦理工学院
创建时间:
2025-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
LEXAM数据集构建于340门法学考试,涵盖116门法学课程,包含4,886个法学考试问题,包括2,841个开放式问题和2,045个多项选择题。数据来源于苏黎世大学法学院2016至2023年的公开考试资料,经过法律专家整理和标注,确保问题覆盖78个法律子领域。开放式问题配有参考答案和明确的推理指导,多项选择题则通过随机生成干扰项来平衡难度。
特点
LEXAM数据集以其多语言(英语和德语)和多法域(瑞士、国际和通用法律)覆盖著称,特别强调长文推理和结构化法律分析。数据集中的开放式问题平均长度为174.3词,参考答案为246.6词,挑战模型的多步推理能力。多项选择题通过扰动测试(4至32个选项)验证模型的鲁棒性,结果显示模型性能随选项增加显著下降。
使用方法
LEXAM数据集适用于评估大型语言模型在法律推理中的表现,尤其关注过程正确性和结果正确性。使用GPT-4o作为评判工具,通过专家验证确保评分一致性。数据集支持少样本学习,开发集包含300个问题,测试集包含2,541个问题。多项选择题通过准确率评估,而开放式问题则通过LLM-as-a-Judge范式进行评分,结合人类专家验证以确保可靠性。
背景与挑战
背景概述
LEXAM是由苏黎世大学法学院的研究团队于2025年创建的法律推理基准测试数据集,旨在评估大型语言模型在复杂法律推理任务中的表现。该数据集源自340份真实法学院考试试卷,涵盖116门课程,包含4,886道英文和德文的法律考题,其中2,841道为开放式问答题,2,045道为选择题。LEXAM的独特之处在于它不仅提供参考答案,还为开放式问题配备了明确的法律推理指导,如问题识别、规则回忆和规则应用等。该数据集对法律人工智能领域具有重要意义,为评估模型在法律推理方面的能力提供了全面且具有挑战性的测试平台。
当前挑战
LEXAM数据集面临的主要挑战包括:1) 领域问题的挑战:法律推理需要复杂的多步骤分析能力,当前大型语言模型在开放式问题上的表现显著不足,特别是在需要结构化法律推理的任务中;2) 构建过程的挑战:数据集需要处理多语言(英文和德文)法律文本,确保问题覆盖不同法律领域(私法、公法、刑法等)和司法管辖区(瑞士、国际法等),同时保持问题难度的平衡。此外,评估开放式问题的质量也面临挑战,需要开发可靠的自动评分方法以替代人工专家评估。
常用场景
经典使用场景
LEXAM数据集作为法律推理领域的专业基准,其最经典的使用场景在于评估大型语言模型(LLM)在复杂法律问题上的表现。数据集包含的2,841道开放式问题和2,045道选择题,覆盖了瑞士、欧洲及国际法的多个领域,能够全面测试模型的法律知识掌握程度和推理能力。特别是在开放式问题中,模型需要展示出结构化、多步骤的法律推理能力,例如问题识别、规则回忆和规则应用等。这种场景不仅适用于学术研究,也为法律教育提供了实用的评估工具。
衍生相关工作
LEXAM数据集已经衍生出多项相关研究和工作。例如,基于LEXAM的评估框架,研究者开发了LLM-as-a-Judge范式,用于自动化评估模型生成的法律推理步骤。此外,LEXAM还启发了对多语言法律推理能力的研究,特别是在德语和英语法律文本处理上的表现。数据集还被用于研究模型在不同法律领域(如私法、公法和刑法)中的表现差异,为法律AI的领域适应性提供了重要参考。
数据集最近研究
最新研究方向
随着大语言模型(LLM)在法律领域的广泛应用,LEXAM数据集作为法律推理评估的新基准,近期研究聚焦于多步推理能力评估与跨司法管辖区泛化性验证。在2025年的前沿探索中,研究者通过引入扰动测试集(如32选项多选题)揭示了LLM在复杂法律场景下的脆弱性,尤其凸显模型对德语法律文本和公法领域的处理短板。热点事件如美国律师使用LLM生成虚假案例的丑闻,进一步推动了该数据集在幻觉检测方面的应用。LEXAM的独特价值在于其过程导向评估框架——通过专家标注的推理链标准,首次实现了对法律论证结构的细粒度分析,为法律AI的可解释性研究提供了重要工具。
相关研究论文
  • 1
    LEXam: Benchmarking Legal Reasoning on 340 Law Exams苏黎世联邦理工学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录