five

CaseGen

收藏
github2025-02-24 更新2025-03-04 收录
下载链接:
https://github.com/CSHaitao/CaseGen
下载链接
链接失效反馈
官方服务:
资源简介:
CaseGen是一个用于评估大型语言模型(LLMs)在中国法律领域生成法律案件文档的基准。该数据集包括500个真实世界的法律案件实例,每个实例分为七个部分:起诉、辩护、证据、事件、事实、推理和判决。它支持四个关键任务:起草辩护陈述、撰写审判事实、编写法律推理和生成判决结果。

CaseGen is a benchmark for evaluating Large Language Models (LLMs) on generating legal case documents in the Chinese legal domain. This dataset includes 500 real-world legal case instances, each of which is split into seven sections: prosecution, defense, evidence, events, facts, reasoning, and judgment. It supports four core tasks: drafting defense statements, writing trial facts, compiling legal reasoning, and generating judgment outcomes.
创建时间:
2025-02-10
原始信息汇总

CaseGen: 多阶段法律案例文档生成基准

数据集概述

  • 名称: CaseGen
  • 用途: 评估大型语言模型(LLMs)在中文法律领域生成法律案例文档的能力
  • 案例数量: 500个真实法律案例
  • 数据来源: 公开法律资源

数据结构

每个案例包含7个部分:

  1. 起诉书(Prosecution)
  2. 辩护词(Defense)
  3. 证据(Evidence)
  4. 事件(Events)
  5. 事实(Facts)
  6. 推理(Reasoning)
  7. 判决(Judgment)

主要任务

  1. 起草辩护词: 根据证据回应起诉主张
  2. 撰写审判事实: 通过验证真实事件构建审判事实
  3. 撰写法律推理: 分析案件事实并应用法律原则
  4. 生成判决结果: 根据审判事实和法律推理形成最终裁决

数据格式

  • 格式: JSON
  • 示例结构: json { "id": 0, "title": " ", "full_text": " ", "defense": " ", "fact": " ", "reasoning": " ", "event": { }, "evidence": { } }

代码功能

文档生成

  1. 准备输入数据: 存放在data/目录
  2. 生成命令: bash python generate/make_prompt.py <task_name> python generate/llm_generate.py <model_name> <API_KEY> <task_name>

文档评估

  1. 评估流程: bash python eval/make_prompt.py <model_name> <task_name> python generate/llm_eval.py <model_name> <API_KEY> <task_name> python eval/llm_eval_handle.py <model_name> <task_name> python eval/bleu_rouge_bert_eval.py <model_name> <task_name>

许可证

  • 类型: CC BY-NC-SA 4.0
  • 适用范围: 非商业学术用途
搜集汇总
数据集介绍
main_image_url
构建方式
CaseGen数据集的构建,是基于中国法律领域实际案例文档,涵盖起诉、辩护、证据、事件、事实、理由和判决七个部分,共包含500个真实世界的法律案例实例。数据收集来源于公开的法律资源,经过法律专家的预处理和标注,确保了数据的完整性与质量。证据细节被完整标注,并以JSON格式整理,以便于使用。
使用方法
使用CaseGen数据集,用户首先需要准备输入数据,并将其放置在指定的目录中。随后,通过运行生成命令脚本,调用LLM生成法律文档。评估生成的法律文档,用户需要准备生成的文档,运行评估命令脚本,并通过LLM进行评估。最终,评估结果可以以表格形式保存,便于进一步分析和查看。此外,还提供了计算BLEU、ROUGE和BERTScore指标的方法,以量化生成文档的质量。
背景与挑战
背景概述
CaseGen数据集,创建于2025年,由lihaitao主导开发,旨在评估大型语言模型在生成中文法律案例文档方面的性能。该数据集包含500个真实世界的法律案例实例,每个案例分为七个部分:指控、辩护、证据、事件、事实、推理和判决。它支持四项关键任务:起草辩护陈述、撰写审判事实、编写法律推理和生成判决结果。该数据集的构建,为法律文本生成领域提供了宝贵的研究资源,对促进法律人工智能的研究与应用具有显著影响。
当前挑战
CaseGen数据集在研究领域面临的挑战主要包括:首先,如何确保生成的法律文本既符合法律规范,又具有逻辑性和说服力;其次,构建过程中,对于案例文档的预处理和专家注释的质量控制是一大挑战,需要保证数据的完整性和准确性;最后,评估生成文本的质量和准确性,需要开发出适用于法律领域的评价标准和方法。
常用场景
经典使用场景
CaseGen作为一项评估大型语言模型在生成中文法律案例文档方面的基准,其经典使用场景在于为法律专业人士提供辅助起草法律文件的支持。该数据集通过模拟起草辩护声明、撰写审判事实、构建法律推理以及生成判决结果等任务,助力研究者评估模型在法律文档生成方面的性能。
解决学术问题
CaseGen解决了传统法律文档生成过程中人工成本高、效率低下的问题。它为学术研究提供了自动化生成法律文档的可能性,并能够通过定制的LLM-as-a-judge评估框架对生成文档的质量进行量化评估,从而推动法律与人工智能结合的学术探索。
实际应用
在实际应用中,CaseGen的应用场景涵盖了法律文书自动化生成、在线法律咨询系统的文档支持等多个方面。它能够协助法律工作者快速生成结构化法律文档,提高工作效率,降低法律服务的门槛。
数据集最近研究
最新研究方向
近期,CaseGen数据集在法律文献生成领域引起了广泛关注。该数据集针对大型语言模型在生成中文法律案例文档方面的性能进行评估,包含了500个真实世界的法律案例实例,旨在促进法律文档自动生成技术的进步。研究前沿主要集中在利用LLM模型进行辩护陈述起草、庭审事实撰写、法律推理构建以及判决结果生成的多阶段任务框架的开发与应用。此数据集不仅推动了法律自动化处理技术的发展,也为法律人工智能的研究与实践提供了新的视角和数据支持,具有重要的学术价值和实际应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作