LawBench

arXiv2023-09-28 更新2024-07-30 收录

下载链接：

https://github.com/open-compass/LawBench/

下载链接

链接失效反馈

资源简介：

LawBench是一个精心设计的全面评估基准，用于从三个认知层面精确评估大型语言模型（LLMs）的法律能力：(1) 法律知识记忆：LLMs是否能记忆必要的法律概念、条款和事实；(2) 法律知识理解：LLMs是否能理解法律文本中的实体、事件和关系；(3) 法律知识应用：LLMs是否能正确运用其法律知识，并进行必要的推理步骤以解决实际法律任务。该基准包含20个多样化的任务，覆盖5种任务类型：单标签分类（SLC）、多标签分类（MLC）、回归、提取和生成。

LawBench is a meticulously designed comprehensive evaluation benchmark for precisely assessing the legal capabilities of large language models (LLMs) across three cognitive dimensions: (1) Legal Knowledge Memory: whether LLMs can memorize necessary legal concepts, clauses and facts; (2) Legal Knowledge Comprehension: whether LLMs can understand entities, events and relationships within legal texts; (3) Legal Knowledge Application: whether LLMs can correctly apply their legal knowledge and carry out necessary reasoning steps to solve practical legal tasks. This benchmark includes 20 diverse tasks spanning 5 task types: single-label classification (SLC), multi-label classification (MLC), regression, extraction and generation.

创建时间：

2023-09-28

搜集汇总

数据集介绍

构建方式

LawBench 数据集旨在评估大型语言模型在处理法律相关任务时的能力。该数据集涵盖了三个认知层面的法律知识，包括法律知识记忆、法律知识理解和法律知识应用。为了实现这一目标，研究人员从中国法律体系中精心挑选了20个多样化的任务，这些任务涵盖了5种类型：单标签分类、多标签分类、回归、提取和生成。这些任务被设计为与用户习惯相符的提示格式，以便更好地评估LLMs在实际法律任务中的能力。

使用方法

使用 LawBench 数据集时，研究人员首先需要对LLMs进行评估。评估过程包括两个步骤：答案提取和指标计算。答案提取是指从模型预测中提取答案，而指标计算则是根据提取的答案和问题以及黄金答案来计算指标得分。LawBench 数据集为每个任务定义了不同的指标，例如准确率、F1分数、Rouge-L分数等，以衡量不同类型任务的表现。此外，LawBench 数据集还报告了LLMs在各个任务中的放弃率，以捕捉LLMs拒绝回答法律相关问题的情况。

背景与挑战

背景概述

大型语言模型（LLMs）在各个领域都展现出强大的能力。然而，当将它们应用于高度专业化且安全性要求严格的法域时，LLMs所掌握的法律知识程度以及能否可靠地执行法律相关任务仍然不清楚。为了填补这一空白，我们提出了一个全面评估LLMs法律能力的评估基准LawBench。LawBench经过精心设计，旨在从三个认知层面进行精确评估：（1）法律知识记忆：LLMs能否记忆必要的法律概念、法规和事实；（2）法律知识理解：LLMs能否理解法律文本中的实体、事件和关系；（3）法律知识应用：LLMs能否正确地利用其法律知识并做出必要的推理步骤来解决现实的法律任务。LawBench包含20个多样化的任务，涵盖5个任务类型：单标签分类（SLC）、多标签分类（MLC）、回归、提取和生成。我们对51个LLMs进行了广泛的评估，包括20个多语言LLMs、22个中文LLMs和9个法律特定LLMs。结果表明，GPT-4在法律领域仍然是最具表现力的LLMs，与其他LLMs相比具有显著优势。尽管在法律特定文本上进行微调可以带来一定的改进，但我们仍然远离获得可使用和可靠的法律LLMs。所有数据、模型预测和评估代码已发布在https://github.com/open-compass/LawBench/。我们希望这个基准能够深入了解LLMs的特定领域能力，并加快LLMs在法律领域的开发。

当前挑战

1) LLMs在法律知识记忆、理解和应用方面仍然存在差距，需要进一步提升其法律专业知识。2) LLMs难以有效地利用法律文章内容信息来辅助判决预测，需要探索更有效的信息检索和利用方法。3) LLMs在执行法律任务时，仍然存在指令遵循能力不足的问题，需要改进其指令理解能力。4) LLMs在处理法律任务时，仍然存在数据泄露和答案提取方法不完善的问题，需要探索更可靠的评估方法。

常用场景

经典使用场景

LawBench 数据集主要应用于评估大型语言模型（LLM）在法律领域的知识掌握程度和推理能力。通过对 LLM 进行三个认知层面的评估，包括法律知识记忆、理解和应用，LawBench 帮助研究人员了解 LLM 在处理法律相关任务时的优势和局限性。此外，LawBench 还可用于开发针对法律领域的 LLM，并通过微调和训练策略的改进来提升 LLM 的性能。

解决学术问题

LawBench 数据集解决了现有评估基准在法律领域存在的局限性，例如评估任务范围有限或基于美国法律。LawBench 提供了一个全面的评估框架，涵盖了 20 个多样化的任务，涵盖了 5 个任务类型：单标签分类、多标签分类、回归、提取和生成。此外，LawBench 还针对中国法律体系设计了独特的评估任务，突出了中国法律领域所需的技能集。LawBench 的发布为法律领域的大型语言模型研究提供了重要的基础，并促进了相关研究的进一步发展。

实际应用

LawBench 数据集的实际应用场景包括但不限于：1. 法律咨询：LLM 可以根据用户的法律咨询提供相关信息和建议，帮助用户了解法律问题并获得针对性的解决方案。2. 法律文书写作：LLM 可以根据案件事实和法律条文生成法律文书，例如起诉状、答辩状等。3. 法律推理：LLM 可以根据案件事实和法律条文进行法律推理，例如判断案件的性质、预测判决结果等。4. 法律知识检索：LLM 可以根据用户的查询检索相关的法律条文和案例，帮助用户快速找到所需的法律信息。LawBench 数据集可以帮助开发更高效、更可靠的法律 LLM，从而提升法律工作的效率和准确性，并为公众提供更好的法律服务。

数据集最近研究