LegalAgentBench
收藏LegalAgentBench 数据集概述
数据集简介
LegalAgentBench 是一个专门设计用于评估中文法律领域LLM(大语言模型)代理的综合性基准。该数据集旨在解决现有通用领域基准无法完全捕捉现实世界司法认知和决策复杂性的问题。
数据集特点
- 真实法律场景:LegalAgentBench 是首个评估法律场景中LLM代理的数据集,要求LLM展示对法律原则的深入理解,并能够选择和使用工具解决复杂的法律问题。
- 多样化的任务类型和难度级别:采用可扩展的任务构建框架,涵盖多种任务类型和难度级别。通过基于语料库和工具依赖关系的规划树,以及分层采样和最大覆盖策略,构建了300个不同的任务,包括多跳推理和写作任务。
- 细粒度的评估指标:不仅依赖最终成功率作为评估标准,还通过中间步骤的注释引入过程率,实现细粒度评估,提供对代理能力的深入洞察。
数据集结构
LegalAgentBench/
│
├── data/
| |── dataset.json # 问答集
├── src/
| |── evaluation/ # 评估示例
| |── output/ # 输出示例
| |── token/ # 令牌消耗记录
| ├── generated_tools.py # LLM代理可使用的工具
| ├── globals.py # 全局变量
| ├── plan_and_excute.py # 计划与执行方法代码
| ├── plan_and_solve.py # 计划与解决方法代码
| ├── react.py # 反应方法代码
| ├── schema.py # 语料库定义
| ├── prompt.py
| └── utils.py
├── agents.py # 代理定义
├── fewshots.py # 代理的少量示例
├── prompts.py # 代理的提示
快速开始
python git clone https://github.com/CSHaitao/LegalAgentBench.git cd LegalAgentBench pip install -r requirements.txt
cd src python react.py --model LLM_name --date time
❗️ 重要提示:在 utils.py 中将字符串 your_api_key 替换为实际密钥。




