LegalBench

arXiv2022-09-14 更新2024-06-21 收录

下载链接：

https://github.com/HazyResearch/legalbench

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

LegalBench是由斯坦福法学院和斯坦福计算机科学联合创建的法律推理基准数据集，旨在评估基础模型在法律推理任务中的表现。该数据集包含44个任务，覆盖法律领域的多个方面，如合同分析、司法管辖权判断等。数据集的创建过程遵循IRAC框架，确保任务设计符合法律推理的实际需求。LegalBench的应用领域广泛，包括但不限于法律实践、司法决策辅助和法律教育，旨在通过技术手段提升法律服务的效率和质量。

LegalBench, a legal reasoning benchmark dataset co-created by institutions such as Stanford University, is designed to evaluate the performance of foundational models in legal reasoning tasks. The dataset encompasses 44 tasks covering various aspects of the legal field, including contract analysis and jurisdiction determination. The creation process of the dataset adheres to the IRAC framework, ensuring that the task design aligns with the actual needs of legal reasoning. LegalBench has a broad range of applications, including but not limited to legal practice, judicial decision support, and legal education, aiming to enhance the efficiency and quality of legal services through technological means.

提供机构：

斯坦福法学院斯坦福计算机科学

创建时间：

2022-09-14

搜集汇总

数据集介绍

构建方式

LEGALBENCH 数据集的构建是一个跨学科的合作过程，涉及法律专业人士和计算机科学家的共同参与。数据集包括 162 个任务，涵盖六种不同的法律推理类型，这些任务由法律专业人士设计和手工艺制作。这些任务旨在测量 LLMs 在法律推理方面的能力，并为律师和 LLM 开发人员提供一个共同的词汇。LEGALBENCH 还展示了流行的法律推理框架如何对应于数据集中的任务，以便于跨学科对话。

特点

LEGALBENCH 数据集的特点在于其任务的多样性和实用性。它涵盖了六种不同的法律推理类型，包括问题发现、规则回忆、规则应用、规则结论、解释和修辞理解。这些任务旨在模拟律师在实践中的各种工作，例如合同审查、法律问题发现、案例分析等。此外，LEGALBENCH 还提供了一个广泛的分类法，用于组织和描述法律任务，以帮助研究人员更好地理解和比较不同任务之间的性能。

使用方法

使用 LEGALBENCH 数据集进行评估时，需要根据每个任务的要求进行相应的提示和评估。对于规则应用和规则结论任务，需要法律专业人士手动评估 LLM 的输出，以确定其正确性和分析性。对于分类和提取任务，使用精确匹配和 F1 分数进行评估。此外，LEGALBENCH 还提供了基线提示，以促进可重复性和标准化。

背景与挑战

背景概述

LegalBench 数据集由斯坦福大学等机构的研究人员于 2023 年创建，旨在评估大型语言模型（LLM）在法律推理方面的能力。该数据集由 162 个任务组成，涵盖了六种不同的法律推理类型，包括问题识别、规则回忆、规则应用、规则结论、解释和修辞理解。这些任务由法律专业人士设计和手工制作，确保了它们在实践中的有用性，并反映了律师感兴趣的法律推理技能。LegalBench 的创建过程是跨学科的，涉及了法律和计算机科学领域的专家。该数据集的影响力体现在它为法律和人工智能社区提供了一个共同的词汇和框架，以讨论和评估 LLM 在法律领域的表现。

当前挑战

LegalBench 数据集面临的挑战包括：1) 所解决的领域问题，即如何评估 LLM 在法律推理方面的能力；2) 构建过程中所遇到的挑战，例如如何收集和标注法律数据，以及如何设计能够反映真实法律实践的任务。为了解决这些挑战，LegalBench 数据集采用了多种方法，包括收集和整合现有的法律数据集、由法律专业人士设计和标注新的任务、以及创建一个包含六种不同法律推理类型的任务分类体系。此外，LegalBench 数据集还提供了一个支持平台，以帮助研究人员更好地理解如何提示和评估不同的任务。

常用场景

经典使用场景

LEGALBENCH 数据集是一个由法律专业人士共同构建的基准，旨在衡量大型语言模型（LLMs）在法律推理方面的能力。该数据集包含了 162 个任务，涵盖了六种不同的法律推理类型。这些任务是通过跨学科的过程构建的，其中收集了法律专业人士设计和手工制作的任务。LEGALBENCH 旨在促进法律界和 LLM 开发者之间的跨学科对话，并通过区分不同类型的法律推理，为律师和 LLM 开发者提供一个共同的词汇。该数据集提供了一个框架，用于组织和比较任务，使研究人员能够识别性能趋势。此外，LEGALBENCH 还旨在支持进一步的研究，为缺乏法律专业知识的 AI 研究人员提供理解如何提示和评估不同任务的支持。

衍生相关工作

LEGALBENCH 数据集的衍生相关工作包括使用该数据集来评估不同 LLMs 的性能，并探索提示工程技术。此外，该数据集还可以用于微调 LLMs，使其在法律任务中表现更好。此外，LEGALBENCH 的任务还可以用于开发新的法律推理任务和评估 LLMs 的性能。最后，该数据集还可以用于研究 LLMs 在法律领域的应用，并探索它们可能带来的潜在影响和挑战。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集