five

LegalAgentBench

收藏
github2024-12-31 更新2025-01-01 收录
下载链接:
https://github.com/CSHaitao/LegalAgentBench
下载链接
链接失效反馈
官方服务:
资源简介:
LegalAgentBench是一个专门设计用于评估法律领域LLM代理的综合性基准测试,包含17个来自真实法律场景的语料库和37个工具,并设计了300个任务,涵盖多种任务类型和难度级别,有效反映了真实法律场景的复杂性。

LegalAgentBench is a comprehensive benchmark specifically designed for evaluating legal-domain LLM Agents. It includes 17 corpora sourced from real legal scenarios, 37 tools, and 300 tasks covering diverse task types and difficulty levels, which effectively reflects the complexity of real-world legal scenarios.
创建时间:
2024-12-13
原始信息汇总

LegalAgentBench 数据集概述

数据集简介

LegalAgentBench 是一个专门设计用于评估中文法律领域LLM(大语言模型)代理的综合性基准。该数据集旨在解决现有通用领域基准无法完全捕捉现实世界司法认知和决策复杂性的问题。

数据集特点

  • 真实法律场景:LegalAgentBench 是首个评估法律场景中LLM代理的数据集,要求LLM展示对法律原则的深入理解,并能够选择和使用工具解决复杂的法律问题。
  • 多样化的任务类型和难度级别:采用可扩展的任务构建框架,涵盖多种任务类型和难度级别。通过基于语料库和工具依赖关系的规划树,以及分层采样和最大覆盖策略,构建了300个不同的任务,包括多跳推理和写作任务。
  • 细粒度的评估指标:不仅依赖最终成功率作为评估标准,还通过中间步骤的注释引入过程率,实现细粒度评估,提供对代理能力的深入洞察。

数据集结构

LegalAgentBench/ │ ├── data/
| |── dataset.json # 问答集 ├── src/ | |── evaluation/ # 评估示例 | |── output/ # 输出示例 | |── token/ # 令牌消耗记录 | ├── generated_tools.py # LLM代理可使用的工具 | ├── globals.py # 全局变量 | ├── plan_and_excute.py # 计划与执行方法代码 | ├── plan_and_solve.py # 计划与解决方法代码 | ├── react.py # 反应方法代码
| ├── schema.py # 语料库定义 | ├── prompt.py | └── utils.py
├── agents.py # 代理定义 ├── fewshots.py # 代理的少量示例 ├── prompts.py # 代理的提示

快速开始

python git clone https://github.com/CSHaitao/LegalAgentBench.git cd LegalAgentBench pip install -r requirements.txt

cd src python react.py --model LLM_name --date time

❗️ 重要提示:在 utils.py 中将字符串 your_api_key 替换为实际密钥。

搜集汇总
数据集介绍
main_image_url
构建方式
LegalAgentBench的构建过程充分考虑了法律领域的复杂性和多样性。该数据集基于真实的法律场景,从17个法律语料库中提取数据,并提供了37种工具以支持外部知识的交互。通过设计可扩展的任务构建框架,研究团队精心标注了300个任务,涵盖了多跳推理和写作等多种类型,并跨越了不同的难度级别,从而全面反映了现实法律场景的复杂性。
特点
LegalAgentBench的特点在于其专注于真实法律场景的评估,首次在法律领域对LLM代理进行全面测试。该数据集通过构建多样化的任务类型和难度级别,采用基于语料库与工具依赖关系的规划树,并通过分层采样和最大覆盖策略选择任务,最终构建了300个独特任务。此外,LegalAgentBench引入了细粒度的评估指标,通过标注中间步骤的过程率,提供了对代理能力的深入洞察,超越了仅依赖最终成功率的传统评估方式。
使用方法
使用LegalAgentBench时,用户首先需要克隆GitHub仓库并安装相关依赖。通过运行`react.py`脚本,用户可以指定LLM模型和时间参数,启动评估过程。在`utils.py`文件中,用户需将`your_api_key`替换为实际的API密钥,以确保与外部服务的正常交互。该数据集提供了丰富的代码示例和工具定义,支持用户灵活地进行任务规划和执行,从而全面评估LLM代理在法律场景中的表现。
背景与挑战
背景概述
随着大语言模型(LLM)智能与自主性的不断提升,其在法律领域的应用潜力日益凸显。然而,现有的通用领域基准测试无法充分捕捉现实世界司法认知与决策的复杂性与细微差别。为此,研究人员提出了LegalAgentBench,这是一个专门用于评估中文法律领域LLM代理的综合性基准测试。该数据集由17个真实法律场景的语料库组成,并提供了37种与外部知识交互的工具。通过设计可扩展的任务构建框架,研究人员精心标注了300个任务,涵盖了多跳推理与写作等多种类型,并跨越了不同的难度级别,有效反映了现实法律场景的复杂性。LegalAgentBench的提出标志着LLM代理在法律场景应用中的一大进步。
当前挑战
LegalAgentBench面临的挑战主要体现在两个方面。首先,法律领域的复杂性与专业性要求LLM代理具备深厚的法律知识储备与推理能力,如何在多跳推理与写作任务中准确理解法律原则并合理运用工具,是该数据集解决的核心问题。其次,在构建过程中,研究人员需确保语料库的真实性与多样性,同时设计出能够全面覆盖不同任务类型与难度级别的框架。此外,如何通过精细化的评估指标(如过程率)深入分析代理的能力,而非仅仅依赖最终成功率,也是构建过程中需要克服的难点。这些挑战共同构成了LegalAgentBench在推动LLM代理法律应用中的关键障碍。
常用场景
经典使用场景
LegalAgentBench数据集在法学领域中,主要用于评估大型语言模型(LLM)代理在真实法律场景中的表现。通过涵盖多跳推理和写作等多样化任务类型,该数据集能够全面测试LLM在法律原则理解、工具选择与应用以及复杂法律问题解决方面的能力。其任务设计基于真实法律案例,确保了评估的实用性和针对性。
衍生相关工作
LegalAgentBench的发布催生了一系列相关研究,特别是在法律智能化领域。基于该数据集,研究者开发了多种针对法律场景的LLM优化方法,如多跳推理模型、法律文本生成工具等。此外,该数据集还启发了对法律知识图谱构建、法律语义理解等方向的研究,为法学与人工智能的深度融合提供了新的研究范式。
数据集最近研究
最新研究方向
随着大语言模型(LLM)在智能化和自主性方面的不断提升,其在法律领域的应用潜力日益凸显。然而,现有的通用领域基准测试无法全面捕捉现实世界司法认知与决策的复杂性和细微差别。为此,LegalAgentBench应运而生,作为首个专注于中文法律场景的基准测试,旨在评估LLM在法律领域的表现。该数据集涵盖了17个真实法律场景的语料库,并提供了37种工具以支持外部知识的交互。通过设计可扩展的任务构建框架,LegalAgentBench精心标注了300个任务,涵盖多跳推理和写作等多种类型,并跨越不同的难度级别,有效反映了现实法律场景的复杂性。此外,该数据集引入了细粒度的评估指标,通过中间步骤的标注,不仅关注最终成功率,还深入分析代理的能力及其改进空间。这一研究方向的推进,为LLM在法律领域的应用提供了更为精准的评估工具,同时也为未来智能法律助手的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作