PLawBench
收藏github2026-01-23 更新2026-02-06 收录
下载链接:
https://github.com/SKYLENAGE-AI/PLawbench
下载链接
链接失效反馈官方服务:
资源简介:
PLawBench是一个基于规则的基准测试,旨在评估大型语言模型在法律实践中的表现。它包括三个法律任务:法律咨询、案例分析和法律文件起草,涵盖了个人事务、婚姻家庭法、知识产权和刑事诉讼等多个现实法律领域。数据集包含250个案例分析问题、18个法律咨询问题和12个法律写作任务,每个任务都配有参考答案、评分规则和评分表。
PLawBench is a rule-based benchmark designed to evaluate the performance of large language models (LLMs) in legal practice. It includes three legal tasks: legal consultation, case analysis and legal document drafting, covering multiple real-world legal domains such as personal affairs, marriage and family law, intellectual property and criminal procedure. The dataset contains 250 case analysis questions, 18 legal consultation questions and 12 legal writing tasks, each equipped with reference answers, scoring rubrics and scoring sheets.
创建时间:
2026-01-05
原始信息汇总
PLawBench 数据集概述
数据集简介
PLawBench 是一个基于量规的基准测试,旨在评估大语言模型在法律实践中的性能。它包含三项法律任务:法律咨询、案例分析和法律文书起草,涵盖个人事务、婚姻家庭法、知识产权、刑事诉讼等多种现实世界法律领域。该基准测试旨在评估大语言模型在处理实际法律任务中的实践能力。
数据集构成
数据集由以下文件构成:
- practical_case_analysis_250.jsonl:包含案例分析问题。共开源 250 个问题,包括问题、参考答案、评分量规和评分表。
- public_legal_consultation_18.json:包含法律咨询问题。共开源 18 个问题,包括咨询场景和评分量规。
- Defendants_Statement.json 和 Plantiffs_Statement.json:分别为起草答辩状和起诉书的法律文书写作任务。共开源 12 个问题,包括写作场景和评分量规。
核心贡献
- 更真实地模拟法律实践:忠实模拟现实世界的法律实践场景,所有任务均改编自真实案例。基准测试将法律任务组织为三个层次——公共法律咨询、实践案例分析和法律文书生成——反映了法律从业者的完整工作流程,能够全面评估大语言模型在不同法律任务中的表现。
- 细粒度推理步骤:在评估最终结果的基础上,明确将细粒度的法律推理步骤纳入任务设计和评估中。这使得能够检验大语言模型是否能执行多阶段法律推理,包括问题识别、事实澄清、法律分析和结论验证,而非依赖浅层的模式匹配或表面推理。
- 任务特定量规:评估框架采用由法律专家标注的个性化、任务特定的量规,超越了纯粹基于结果或形式的指标,以评估实质性的法律推理和决策过程。
模型性能排名(摘要)
下表展示了部分模型在基准测试中的综合与分项得分情况:
| 系列 | 模型 | 综合得分 | 任务2-平均 | 任务2-结论 | 任务2-事实 | 任务2-推理 | 任务2-法条 | 任务1 | 任务3-平均 | 任务3-原告 | 任务3-被告 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT | GPT-5.2-1211-global | 69.67 | 66.37 | 69.93 | 88.26 | 60.38 | 48.59 | 79.57 | 68.58 | 58.25 | 63.42 |
| Claude | Claude-opus-4-5-20251101 | 66.47 | 68.00 | 69.82 | 83.61 | 65.49 | 53.61 | 68.92 | 62.27 | 56.54 | 68.01 |
| Gemini | Gemini-3.0-pro-preview | 66.35 | 64.95 | 72.03 | 77.79 | 65.00 | 46.42 | 70.17 | 66.13 | 63.84 | 68.42 |
| GPT | GPT-5-0807-global | 67.76 | 62.92 | 66.77 | 86.21 | 60.27 | 34.18 | 78.71 | 68.54 | 61.05 | 76.03 |
(注:上表为部分摘录,完整排名请参见原数据集页面。)
搜集汇总
数据集介绍

构建方式
在人工智能与法律交叉领域,构建能够反映真实法律实践复杂性的评估基准至关重要。PLawBench的构建根植于对现实法律工作流程的细致模拟,其任务设计直接来源于真实案例,涵盖了从公共法律咨询、实务案例分析到法律文书起草的完整层次。数据集的构建过程强调对认知挑战性元素的强化,例如在咨询任务中刻意引入模糊描述、关键事实省略等情境,以检验模型在真实法律咨询条件下的应对能力。每个任务均配备了由法律专家精心设计的双层标注框架,先确立任务通用的评分原则,再针对具体场景进行细粒度标注,确保了评估标准既具备原则性又富有情境敏感性。
特点
该数据集的核心特征在于其以评分准则为基础的精细化评估体系,以及对法律实践真实性的高度还原。它不仅关注模型输出的最终结果,更将法律推理的细粒度步骤,如问题识别、事实澄清、法律分析与结论验证,明确纳入任务设计与评估范畴。数据集通过模拟用户查询中常见的模糊性、逻辑不一致性与情绪化表达,有效评估模型超越浅层模式匹配、进行结构化法律推理的能力。其任务特定的评分准则由法律专家标注,实现了对实质法律推理与决策过程的深度评估,而非停留于形式或结果导向的度量。
使用方法
研究人员可利用该数据集对大型语言模型在法律实践中的综合能力进行系统性评估。使用过程涉及加载相应的JSON或JSONL格式文件,这些文件包含了具体任务的问题、参考回答、评分准则及评分表。评估者需依据数据集提供的专家标注准则,对模型在公共法律咨询、案例分析及法律文书起草三个任务上的表现进行逐项评分。该基准支持对模型在不同法律子领域(如婚姻家庭法、知识产权、刑事诉讼)及不同推理环节(如事实认定、法律适用)的能力进行横向比较与深入分析,为模型在法律领域的性能优化提供了明确的诊断依据。
背景与挑战
背景概述
随着人工智能技术在法律领域的深入应用,评估大语言模型在法律实务中的真实能力成为一项紧迫的研究课题。PLawBench应运而生,作为一个基于量规的基准测试,由相关研究团队于近期构建,旨在系统评估大语言模型在处理现实法律任务时的表现。该数据集聚焦于法律咨询、案件分析与法律文书起草三大核心任务,覆盖了婚姻家庭、知识产权、刑事诉讼等多个实务领域。其设计初衷在于弥补现有评估工具在模拟真实法律工作流程与深度法律推理方面的不足,通过引入层级化的任务结构与专家标注的细分量规,为衡量模型的法律实践能力提供了更为严谨与全面的框架,对推动法律智能技术的发展具有重要的参考价值。
当前挑战
PLawBench所针对的核心领域挑战在于,法律实践要求模型不仅能处理结构化知识,还需应对用户咨询中的模糊性、逻辑矛盾与情感化表达,并完成从事实梳理到法律适用的复杂推理。现有模型往往在深层逻辑分析与专业文书生成上存在局限。在数据集构建过程中,挑战主要体现在如何从真实案例中提取并重构具有认知难度的任务场景,同时确保量规设计的专业性与一致性。这要求法律专家进行多阶段标注,既要定义普适性的评估框架,又需为每个具体场景制定情境化的评分标准,以平衡评估的严谨性与对现实复杂度的忠实反映。
常用场景
经典使用场景
在人工智能与法律交叉领域,PLawBench作为基于量规的基准测试,其经典应用场景在于系统评估大型语言模型在真实法律实践中的综合能力。该数据集通过模拟律师与客户之间的互动、结构化案例分析与法律文书起草三个层次任务,覆盖了从个人事务到刑事诉讼的广泛法律领域,为研究者提供了一个贴近现实的法律任务评估框架。
实际应用
在实际应用层面,PLawBench为法律科技产品的开发与优化提供了重要参考。法律咨询平台、案例辅助分析系统以及自动化文书生成工具均可利用该基准测试其核心模型的表现,确保其输出符合法律专业规范与逻辑严谨性。这有助于推动人工智能技术在法律服务行业的可靠落地,提升法律服务的效率与可及性。
衍生相关工作
围绕PLawBench数据集,已衍生出多项聚焦于法律大模型能力评测与提升的经典研究工作。这些工作不仅深入分析了不同模型架构在法律任务上的性能差异与瓶颈,还进一步探索了结合领域知识增强、推理链优化等方法来提升模型的法律专业能力,共同推动了法律智能评估体系的完善与发展。
以上内容由遇见数据集搜集并总结生成



