LegalBench

arXiv2023-08-21 更新2025-02-10 收录

下载链接：

http://arxiv.org/abs/2308.11462v1

下载链接

链接失效反馈

官方服务：

资源简介：

一个由法律专业人士设计并手工制作的协作构建的法律推理基准，包含162项任务，覆盖六种不同的法律推理类型。

A collaboratively constructed legal reasoning benchmark designed and manually crafted by legal professionals, which consists of 162 tasks covering six distinct types of legal reasoning.

创建时间：

2023-08-21

搜集汇总

数据集介绍

构建方式

LegalBench 的构建过程体现了跨学科协作的深度与广度。该基准测试由斯坦福大学等多家顶尖学术机构的法律与计算机科学专家共同打造，通过公开征集与精心筛选，汇集了来自法律专业人士手工设计的162项任务。这些任务源自36个不同的数据源，包括对现有法律数据集的重构（以适应少样本学习范式）以及法律学者专门为此项目创建的全新数据集。每一任务都经过法律正确性与有效性的严格审核，确保了其专业性与实用性。

特点

LegalBench 的核心特色在于其精细化的法律推理分类体系。它超越了传统基准测试对‘法律推理’的笼统概括，依据法律界广为接受的IRAC框架（问题识别、规则回忆、规则应用、规则结论）以及解释与修辞理解，将任务划分为六种截然不同的推理类型。这种分类法为法律专业人士提供了一套熟悉的术语和概念框架，使他们能够有意义地参与和解读大语言模型在法律领域的表现。此外，该基准测试覆盖了从合同、民事诉讼到知识产权等多个法律领域，任务形式多样，包括二元分类、多项选择和开放式生成，全面评估模型的多元能力。

使用方法

使用 LegalBench 进行模型评估时，研究者需针对每项任务采用精心设计的提示词，其中包含任务说明与少量上下文示例。评估过程支持零样本和少样本两种范式，并通过精确匹配或人工评估（特别是针对规则应用任务中模型生成的解释部分）来计算性能指标。该基准测试不仅提供了标准化的评估基线，还鼓励研究者探索不同的提示工程策略，如使用纯语言描述简化任务或对比不同上下文示例的影响，从而深入理解模型在特定法律推理任务上的优势与局限，推动法律人工智能的进一步发展。

背景与挑战

背景概述

随着大型语言模型（LLMs）的迅猛发展，其在法律领域的应用潜力引发了广泛关注，然而，如何系统性地评估这些模型在法律推理方面的能力仍是一个亟待解决的难题。为此，斯坦福大学的研究人员Neel Guha、Julian Nyarko、Daniel E. Ho、Christopher Ré等人联合多所顶尖学府与机构，于2023年8月共同构建了LegalBench基准数据集。该数据集的核心研究问题在于：大型语言模型究竟能够执行何种类型的法律推理？LegalBench通过一个跨学科的合作流程，汇集了由法律专业人士精心设计的162项任务，覆盖了从问题识别、规则回忆到规则应用、结论推导、文本解释及修辞理解等六种不同类型的法律推理。这一开创性工作不仅为法律与人工智能领域搭建了共同的话语体系，更通过实证评估20种开源及商业模型，揭示了当前LLMs在法律推理方面的能力边界与潜力，对推动法律科技的负责任发展具有深远影响。

当前挑战

LegalBench所面临的挑战首先体现在其解决的领域问题层面：法律推理本身具有高度的复杂性与多样性，现有基准往往粗粒度地将所有涉及法律数据的任务统称为“法律推理”，而未能区分诸如问题识别、规则应用等不同推理类型，这导致法律专业人士难以将模型性能与其专业认知进行有效对接。此外，构建过程中亦遭遇多重困难：一是法律基准生态的匮乏，多数现有基准侧重于通过微调学习的任务，无法衡量LLMs在少样本提示下的多任务能力；二是法律专业知识的融入难题，为确保任务既具实用性又能反映律师感兴趣的能力，需要法律主题专家深度参与任务设计与手工标注，这一过程对跨学科协作提出了极高要求；三是数据多样性挑战，当前版本的任务偏向美国法律与合同领域，如何拓展至其他法域与法律分支，仍是未来持续迭代的关键障碍。

常用场景

经典使用场景

在大型语言模型（LLM）迅速渗透法律实践的背景下，LegalBench应运而生，旨在系统性地评估LLM在法律推理方面的能力。该基准最经典的使用场景是作为一套标准化的评测工具，用于衡量LLM在六种不同法律推理类型上的表现，包括问题识别、规则回忆、规则应用、规则结论、解释以及修辞理解。通过对20余种开源及商业LLM进行实证评估，LegalBench为研究者提供了跨模型、跨任务的性能对比，从而揭示了不同模型在法律任务上的优势与局限。

实际应用

在实际应用中，LegalBench所涵盖的任务直接映射到法律实务中的高频需求。例如，合同条款分类任务可用于自动化合同审查，帮助律师快速识别审计权、排他性协议等关键条款；法律问题识别任务则可集成至在线法律服务平台的智能导诊系统，辅助非专业人士定位其法律困境。此外，该基准在隐私政策合规分析、证券诉讼主体提取等场景中展现出巨大潜力，有望降低法律服务的成本，提升司法资源的可及性，从而缓解长期存在的“正义鸿沟”问题。

衍生相关工作

LegalBench的发布催生了一系列衍生研究工作。在方法层面，研究者基于该基准探索了提示工程策略对法律推理性能的影响，如对比描述性提示与参考性提示的效果，以及分析上下文示例选择的敏感性。在模型发展层面，该基准为法律专用LLM的微调与评估提供了关键参照，推动了如法律领域指令微调模型的出现。此外，围绕LegalBench展开的跨模型性能分析，揭示了参数规模、训练数据构成与推理能力之间的复杂关系，为未来构建更强大、更可靠的法律AI系统奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集