five

J1-ENVS

收藏
arXiv2025-07-05 更新2025-07-09 收录
下载链接:
https://J1Bench.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
J1-ENVS是一个为语言模型设计的交互式和动态法律环境数据集,它由六个代表中国法律实践的场景组成,分为三个环境复杂度等级。数据集涵盖了从知识问答和法律咨询到投诉和辩护起草,再到民事和刑事法庭程序等多个方面。该数据集旨在评估LLM模型在动态环境中的任务执行和程序合规性。

J1-ENVS is an interactive and dynamic legal environment dataset designed for language models. It consists of six scenarios representing Chinese legal practice, categorized into three levels of environmental complexity. The dataset covers a wide range of tasks including knowledge Q&A, legal consultation, complaint and defense drafting, as well as civil and criminal court proceedings. This dataset aims to evaluate the task execution and procedural compliance of LLM models in dynamic environments.
提供机构:
复旦大学, 上海创新研究院, 华中科技大学, 南加州大学, 中度科技, 西北政法大学
创建时间:
2025-07-05
搜集汇总
数据集介绍
main_image_url
构建方式
J1-ENVS数据集的构建基于中国法律实践中的六个代表性场景,分为三个复杂度级别。构建过程包括两个主要步骤:角色代理设置和多层次环境构建。角色代理设置利用真实法律来源(如中国判决文书和法律文章)和人格理论(如大五人格特质)来创建多样化的法律和非法律角色。多层次环境构建则将这些角色组合到特定程序和关系中,形成法律环境。具体来说,Level-I包括法律知识问答和咨询,Level-II涉及投诉和辩护起草,Level-III涵盖民事和刑事法庭场景。
特点
J1-ENVS数据集具有以下显著特点:1) 动态交互性:不同于传统的静态法律基准,J1-ENVS强调多轮交互和程序合规性,更贴近真实法律实践。2) 多层次复杂度:数据集按照角色多样性、交互需求和程序难度分为三个级别,从基础咨询到复杂法庭程序。3) 真实性:所有场景和角色均基于真实中国法律实践构建,确保数据的代表性和实用性。4) 多样性:涵盖民事、刑事等多种案件类型,涉及不同法律领域和程序阶段。
使用方法
使用J1-ENVS数据集时,研究人员可通过以下步骤进行评估:1) 将语言模型作为法律代理接入不同环境场景;2) 按照各场景的特定任务要求完成交互,如法律咨询、文件起草或法庭程序;3) 使用配套的J1-EVAL评估框架进行细粒度评估,包括任务完成度和程序合规性等指标。评估可采用基于规则或LLM的自动评估方法。数据集支持对模型法律知识、交互能力和程序遵循能力的全面测试,特别适合评估模型在动态法律环境中的表现。
背景与挑战
背景概述
J1-ENVS是由复旦大学、上海创新研究院、华中科技大学、南加州大学、米读科技和西北政法大学的研究团队于2025年推出的首个面向法律智能的动态交互式评测环境。该数据集针对传统静态法律评测基准与真实法律实践动态特性之间的脱节问题,构建了涵盖中国法律实践中六个典型场景的三级复杂度环境体系。作为法律大语言模型智能体的首个动态评测平台,J1-ENVS通过模拟从法律咨询到法庭审判的全流程交互,为评估模型在真实法律场景中的程序合规性和任务执行能力提供了标准化框架,推动了法律人工智能从静态知识评估向动态实践能力测评的范式转变。
当前挑战
J1-ENVS面临双重挑战:在领域问题层面,需解决现有法律评测无法捕捉动态交互和程序合规性的局限,特别是处理多角色协同、长程程序遵循和实时决策等复杂场景;在构建层面,需克服真实法律场景的高保真模拟难题,包括从裁判文书提取法律要素的精确性、角色行为与法律逻辑的一致性维护,以及三级复杂度环境的平衡设计。实验表明,即使最先进的GPT-4o模型在整体性能上也不足60%,暴露出法律智能体在程序性知识应用和动态环境适应方面的显著不足。
常用场景
经典使用场景
J1-ENVS数据集作为首个专为法律智能设计的动态交互式基准环境,其经典使用场景聚焦于评估基于大语言模型(LLM)的智能体在多层次法律实务中的表现。在模拟真实法律流程的六类场景中,研究者可通过该数据集系统测试智能体从基础法律咨询(Level-I)、文书起草(Level-II)到法庭辩论(Level-III)的全流程能力,尤其擅长揭示模型在动态角色互动与程序合规性方面的短板。例如在民事法庭环境(Env.5)中,智能体需同时扮演法官、原告律师和被告律师,通过五阶段庭审流程检验其多角色协调与法律推理能力。
解决学术问题
该数据集有效解决了传统法律NLP基准静态化、单维度评估的局限性。其核心学术价值体现在:1)首次构建了涵盖中国法律实务全链条的动态评估体系,填补了交互式法律智能研究的基础设施空白;2)通过J1-EVAL细粒度评估框架,可量化分析智能体在知识准确性(BIN/NBIN)、文书规范性(FOR/DOC)和程序合规性(PFS)等维度的表现,为理解LLM在法律领域的认知边界提供实证依据;3)实验发现即使GPT-4o在动态环境中的综合表现不足60分,这一发现颠覆了静态测试中法律专用模型的优势认知,推动学界重新审视法律智能的发展路径。
衍生相关工作
该数据集已衍生出三类代表性研究:1)法律智能体架构优化,如Disc-LawLLM通过J1-ENVS验证混合专家架构在动态环境中的优势;2)法律程序建模,Chen等人提出的AgentCourt利用该数据集构建对抗性律师智能体演化框架;3)评估方法论创新,Yue等基于J1-EVAL开发了面向知识密集型任务的多智能体协同评估体系。这些工作共同推动了法律AI从静态任务处理向动态环境适应的范式转变,相关成果发表于ACL、NeurIPS等顶会。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作