JuDGE
收藏JuDGE: Benchmarking Judgment Document Generation for Chinese Law System
数据集概述
数据集名称
JuDGE
数据集描述
JuDGE 是一个针对中文法律系统的判决书生成基准数据集。该数据集将判决书生成形式化为一个条件文本生成问题。给定一个案件事实描述(Fact),目标是生成一个结构上连贯且合法的判决书(Judgment Document)。
数据结构
- CaseID: 案件的唯一标识符。
- Fact: 案件关键事实的总结,限制在1000个汉字以内。
- Full Document: 完整的判决书文档。
- Reasoning: 法律推理过程的详细说明。
- Judgment: 最终的判决和处罚(1000至3000个汉字范围内)。
- Sentence: 刑期长度。
- Fine: 罚款金额。
- Crime Type: 涉及的犯罪类型。
- Law Articles: 判决中引用的法律条文的索引。
示例数据
以下是一个来自 all.json 的样本条目,展示了结构和数据字段:
json { "CaseId": "101305d2-00d3-443e-8f36-3843cbeb3379", "Fact": "辉县市人民检察院指控,2018年5月21日1时许...", "Full Document": "河南省辉县市人民法院 刑事判决书 (2019)豫0782刑初325号...", "Reasoning": "本院认为,被告人张新军醉酒后无证驾驶机动车辆在道路上行驶...", "Judgment": "被告人张新军犯危险驾驶罪,判处拘役一个月...", "Sentence": ["拘役一个月"], "Fine": ["罚金人民币五千元"], "Crime Type": ["抢劫罪", "危险驾驶罪"], "Law Articles": [67, 133, 72, 73, 52, 53] }
数据获取
数据集的详细格式、关键字段和获取方式在数据发布部分进行了说明。
自动评估框架
提供了自动化评估框架来评估生成判决书的质量,包括内容准确性、结构连贯性和法律合理性。
环境设置
提供了配置环境的步骤,包括克隆仓库、安装依赖和系统要求。
执行评估脚本
详细说明了如何准备数据并执行评估脚本。
基线方法复现
描述了复现基线方法的步骤,包括检索模块训练、大语言模型训练和多源RAG基线。
许可
项目在特定许可下发布,详细内容请查看许可文件。
引用
如果使用 JuDGE 数据集进行研究,请引用相关论文。
联系方式
如有问题或建议,请在 GitHub 上提出问题或通过电子邮件联系。




