JuDGE

github2025-03-11 更新2025-02-25 收录

下载链接：

https://github.com/oneal2000/JuDGE

下载链接

链接失效反馈

官方服务：

资源简介：

JuDGE数据集是一个用于中国法律系统的判决文档生成基准测试的数据集。它包含了完整的判决文档和详细的文档说明，支持多种基线方法的实现和结果复现，以及一键评估脚本用于快速评估生成的法律文档质量。数据集中的每个判决文档都结构化为一系列键值对，包括案件ID、事实摘要、完整文档、法律推理过程、最终判决和处罚、刑期、罚款、犯罪类型和引用的法律条文索引等字段。

The JuDGE dataset is a benchmark dataset for judgment document generation in the Chinese legal system. It contains complete judgment documents and detailed documentation, supports the implementation and reproducibility of multiple baseline methods, and provides one-click evaluation scripts for rapid evaluation of the quality of generated legal documents. Each judgment document in the dataset is structured as a series of key-value pairs, including fields such as case ID, fact summary, full document, legal reasoning process, final judgment and penalty, prison term, fine, crime type, and index of cited legal provisions.

创建时间：

2025-02-09

原始信息汇总

JuDGE: Benchmarking Judgment Document Generation for Chinese Law System

数据集概述

数据集名称

JuDGE

数据集描述

JuDGE 是一个针对中文法律系统的判决书生成基准数据集。该数据集将判决书生成形式化为一个条件文本生成问题。给定一个案件事实描述（Fact），目标是生成一个结构上连贯且合法的判决书（Judgment Document）。

数据结构

CaseID: 案件的唯一标识符。
Fact: 案件关键事实的总结，限制在1000个汉字以内。
Full Document: 完整的判决书文档。
Reasoning: 法律推理过程的详细说明。
Judgment: 最终的判决和处罚（1000至3000个汉字范围内）。
Sentence: 刑期长度。
Fine: 罚款金额。
Crime Type: 涉及的犯罪类型。
Law Articles: 判决中引用的法律条文的索引。

示例数据

以下是一个来自 all.json 的样本条目，展示了结构和数据字段：

json { "CaseId": "101305d2-00d3-443e-8f36-3843cbeb3379", "Fact": "辉县市人民检察院指控，2018年5月21日1时许...", "Full Document": "河南省辉县市人民法院刑事判决书（2019）豫0782刑初325号...", "Reasoning": "本院认为，被告人张新军醉酒后无证驾驶机动车辆在道路上行驶...", "Judgment": "被告人张新军犯危险驾驶罪，判处拘役一个月...", "Sentence": ["拘役一个月"], "Fine": ["罚金人民币五千元"], "Crime Type": ["抢劫罪", "危险驾驶罪"], "Law Articles": [67, 133, 72, 73, 52, 53] }

数据获取

数据集的详细格式、关键字段和获取方式在数据发布部分进行了说明。

自动评估框架

提供了自动化评估框架来评估生成判决书的质量，包括内容准确性、结构连贯性和法律合理性。

环境设置

提供了配置环境的步骤，包括克隆仓库、安装依赖和系统要求。

执行评估脚本

详细说明了如何准备数据并执行评估脚本。

基线方法复现

描述了复现基线方法的步骤，包括检索模块训练、大语言模型训练和多源RAG基线。

许可

项目在特定许可下发布，详细内容请查看许可文件。

引用

如果使用 JuDGE 数据集进行研究，请引用相关论文。

联系方式

如有问题或建议，请在 GitHub 上提出问题或通过电子邮件联系。

搜集汇总

数据集介绍

构建方式

JuDGE数据集的构建，以中国法律体系中的裁判文书生成任务为背景，采用条件文本生成问题的形式化描述。数据集通过精心设计的结构化信息收集，包括案件事实、完整裁判文书、法律推理过程、判决结果等关键信息，形成了一系列结构化的键值对实例。每一份裁判文书均经过法律专业人士的审核，确保内容、结构与法律效力的准确性。

使用方法

使用JuDGE数据集，用户需首先配置运行环境，包括克隆仓库、安装依赖等。之后，用户可以按照提供的指南准备数据，执行评估脚本进行模型评估。数据集的使用还涉及到了预训练模型的微调、多源检索增强生成等先进技术的应用，用户可根据具体的任务需求和技术背景进行相应的操作与实践。

背景与挑战

背景概述

JuDGE数据集是一项针对中国法律体系判决文书生成问题的基准测试。该数据集由一系列研究人员和机构共同创建，旨在推动法律文书自动化生成领域的研究。JuDGE数据集的创建时间为近期，它提供了一个结构化的文本生成问题，即给定案件事实描述，生成在内容、结构和法律有效性方面与真实判决文书相匹配的判决文书。该数据集的发布对于相关领域具有重大影响力，为判决文书生成的研究和开发提供了一个标准化的测试平台。

当前挑战

JuDGE数据集在构建过程中遇到的挑战主要包括：确保数据的质量和准确性，尤其是在法律专业性和判决逻辑的准确性方面；同时，构建一个能够全面覆盖不同类型犯罪和法律条文的数据集也是一个挑战。在研究领域问题方面，该数据集面临的挑战包括如何提高生成判决文书的内容准确性、结构连贯性以及法律合理性；此外，如何有效地评价和比较不同模型的性能也是一个关键挑战。

常用场景

经典使用场景

在中文法律文书的自动化生成领域，JuDGE数据集被广泛用于评估判决文书生成的质量和准确性。其经典使用场景在于，通过给定案件事实描述，研究人员和开发者可以训练模型自动生成结构完整、内容准确且符合法律规定的判决文书，从而实现法律文书生成的自动化和智能化。

解决学术问题

JuDGE数据集解决了学术研究中如何自动生成符合法律规范的判决文书的问题，它提供了大量标注详尽的案例，使得研究者能够在此基础上训练和评估模型。此外，该数据集还有助于推动法律文书生成中的文本质量评估标准的建立，为法律文本的自动评价提供了基准。

实际应用

在实际应用中，JuDGE数据集的应用场景包括但不限于法律援助机构的文书自动化生成、法院案件管理系统中的智能辅助判断以及在线法律服务平台的法律咨询服务。这些应用能够提高法律工作效率，降低法律服务的成本，并促进法律服务的普及和公平。

数据集最近研究