five

LAiW

收藏
arXiv2024-02-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2310.05620v2
下载链接
链接失效反馈
资源简介:
LAiW是一个专为评估中文法律领域大型语言模型(LLMs)而设计的数据集,由四川大学等机构的研究人员创建。该数据集基于法律实践的逻辑,将法律能力分为三个层次:基本信息检索、法律基础推理和复杂法律应用,每个层次包含多个任务,以确保全面评估。数据集的建设结合了多个公开源数据集和少量专有数据,旨在通过自动化评估和人工评估,揭示当前法律LLMs在实际应用中的能力和局限性。

LAiW is a dataset specifically designed for evaluating large language models (LLMs) in the Chinese legal domain, created by researchers from Sichuan University and other institutions. Rooted in the logic of legal practice, this dataset classifies legal capabilities into three tiers: basic information retrieval, basic legal reasoning, and complex legal application. Each tier includes multiple tasks to ensure a comprehensive evaluation. Constructed by integrating multiple publicly available legal datasets and a small amount of proprietary data, this dataset aims to reveal the current capabilities and limitations of legal LLMs in real-world applications through both automated and manual evaluations.
提供机构:
四川大学
创建时间:
2023-10-09
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建方式遵循法律实践的逻辑,将LLMs的法律能力分为三个层次:基本信息检索、法律基础推理和复杂法律应用。每个层次包含多个任务,以确保全面评估。数据集分为自动评估和手动评估两部分。自动评估任务包括分类、命名实体识别和文本生成,手动评估任务主要针对逻辑推理能力较强的任务。
特点
LAiW数据集的特点在于其基于法律实践的逻辑构建,能够更准确地评估LLMs在法律领域的真实能力。数据集包含14个任务,涵盖了现有的大部分LegalAI任务,并且添加了一些新的任务。自动评估和手动评估的结果表明,现有的LLMs在文本生成方面表现出色,但在基本信息检索和法律基础推理方面表现较差,导致缺乏法律逻辑和司法专家的不信任。
使用方法
LAiW数据集的使用方法包括自动评估和手动评估。自动评估使用计算指标进行评估,手动评估则由法律专家进行评估。自动评估指标包括准确率、召回率、F1分数和Matthews相关系数等,手动评估指标包括完整性、相关性和准确性等。通过这些评估指标,可以全面评估LLMs在法律领域的各项能力。
背景与挑战
背景概述
随着ChatGPT和GPT-4等大型语言模型(LLMs)的出现,它们在文本处理能力方面展现出强大的潜力。在法律人工智能(LegalAI)领域,LLMs也展现出在生成法律文本方面的强大能力。然而,现有的LLMs在LegalAI中的评估通常由计算机科学专家定义,缺乏与法律实践逻辑的一致性,这使得评估其实际能力变得困难。为了解决这个问题,研究人员首次构建了基于法律实践逻辑的中文法律LLMs基准LAiW。LAiW将LLMs的法律能力从易到难分为三个层次:基本信息检索、法律基础推理和复杂法律应用,每个层次包含多个任务以确保全面评估。通过在LAiW基准上对现有通用和特定领域的LLMs进行自动化评估,研究人员指出这些LLMs可能不符合法律实践的逻辑,在基本任务中表现不佳,这可能会阻碍其在实际应用中的接受程度。为了进一步确认LLMs在法律应用场景中的复杂法律应用能力,研究人员还进行了法律专家的人工评估。结果表明,尽管LLMs表现出强大的性能,但它们仍然需要加强法律逻辑。LAiW基准的创建对于评估LLMs在法律领域的实际能力具有重要意义,并为LegalAI领域的研究提供了新的方向。
当前挑战
LAiW基准的构建和评估过程中面临一些挑战。首先,LLMs在基本信息检索和法律基础推理任务中表现不佳,这与法律实践的逻辑相悖。其次,LLMs在复杂法律应用任务中表现出强大的文本生成能力,但缺乏法律逻辑,难以获得法律专家的信任。为了解决这些问题,需要开发更好的训练和评估方法,以提高LLMs在法律领域的逻辑推理和综合能力。此外,LAiW基准的构建过程中还面临数据集构建和人工评估的挑战,需要与法律专家合作,确保数据集的全面性和评估结果的可靠性。
常用场景
经典使用场景
LAiW 数据集作为首个基于法律实践逻辑构建的中国法律大语言模型基准,旨在评估LLMs在法律领域的真实能力。该数据集将LLMs的法律能力分为三个层次:基本信息检索、法律基础推理和复杂法律应用。其中,基本信息检索专注于LLMs在法律逻辑中的基础能力,包括对法律文本中的关键信息进行识别和总结;法律基础推理强调LLMs在法律领域的简单应用任务中的表现,如争议焦点挖掘和相似案例匹配;复杂法律应用则关注LLMs在法律领域的复杂任务中的表现,如司法推理生成和法律咨询。LAiW 数据集通过自动评估和人工评估两种方式,对当前主流的法律LLMs进行了全面的评估,揭示了它们在法律逻辑方面的优势和不足,为法律LLMs的后续评估和发展提供了重要的参考。
解决学术问题
LAiW 数据集解决了当前法律LLMs评估中存在的两个主要问题。首先,现有的评估方法大多由计算机专家定义,缺乏与法律实践逻辑的一致性,难以判断LLMs的实际能力。LAiW 数据集基于法律实践逻辑,将LLMs的法律能力分为三个层次,更准确地评估了LLMs的真实能力。其次,现有的评估方法主要集中在LLMs在法律领域的应用结果上,如文本生成的规范性和流畅性,而忽略了LLMs是否符合法律实践的逻辑要求。LAiW 数据集通过人工评估,揭示了LLMs在法律逻辑方面的不足,为LLMs的训练和评估提供了重要的参考。
衍生相关工作
LAiW 数据集的构建和评估,为法律LLMs的研究和应用提供了重要的参考。该数据集的构建方法,即基于法律实践逻辑将LLMs的法律能力分为三个层次,可以应用于其他领域LLMs的评估和开发。此外,LAiW 数据集的评估结果,揭示了LLMs在法律逻辑方面的不足,为LLMs的训练和评估方法的研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作