CaseGen
收藏arXiv2025-02-25 更新2025-02-27 收录
下载链接:
https://github.com/CSHaitao/CaseGen
下载链接
链接失效反馈官方服务:
资源简介:
CaseGen是一个针对中国法律领域的多阶段法律案件文档生成基准。该数据集基于500个真实的案件样本,由法律专家标注,涵盖了起诉、辩护、证据、事件、事实、理由和判决等七个关键部分。它支持起草辩护声明、撰写审判事实、构建法律推理和生成判决结果等四个关键任务。CaseGen旨在为评估大型语言模型在法律案件文档生成方面的性能提供一个全面的评估平台。
CaseGen is a multi-stage legal case document generation benchmark targeting the Chinese legal domain. This dataset is based on 500 real case samples annotated by legal experts, covering seven key sections including prosecution, defense, evidence, events, facts, legal grounds and judgments. It supports four core tasks: drafting defense statements, writing trial facts, constructing legal reasoning and generating judgment outcomes. CaseGen aims to provide a comprehensive evaluation platform for assessing the performance of large language models in legal case document generation.
提供机构:
清华大学DCST
创建时间:
2025-02-25
搜集汇总
数据集介绍

构建方式
CaseGen数据集的构建基于500份由法律专家标注的真实案件样本,涵盖了七个案件核心部分。数据集构建过程中,首先从中国裁判文书网收集了数十万份法律案件文档,经过严格的筛选和处理,确保了数据完整性和质量。接着,通过法律专家对证据内容进行标注,确保了数据完整性和真实性。最后,数据集采用JSON格式进行结构化,便于模型处理和分析。
特点
CaseGen数据集的特点包括:1. 首个全面的案件文档生成基准:覆盖了从起诉到判决的所有关键阶段,为评估LLM性能提供了完整的框架。2. 多阶段生成任务支持:设计了多阶段生成任务,包括起草辩护状、撰写审判事实、撰写法律推理和生成判决结果,每个任务都有其独特的写作逻辑和评估标准。3. 自动化评估框架:采用LLM-as-a-judge评分方法,通过LLM法官进行逐点评分,参考真实案例和采用Chain-of-Thought (CoT)推理,实现高效自动化评估。
使用方法
CaseGen数据集的使用方法包括:1. 数据准备:将数据集下载到本地或服务器,并解压。2. 数据加载:使用适当的工具或库加载数据集,例如Pandas或TensorFlow。3. 数据预处理:根据具体任务对数据进行预处理,例如分词、编码等。4. 模型训练:使用数据集训练或微调LLM模型,例如GPT-3或GLM-4。5. 模型评估:使用LLM-as-a-judge评估框架或其他评估方法对模型进行评估,例如BLEU或ROUGE。6. 结果分析:分析评估结果,找出模型的优势和不足,为未来改进提供方向。
背景与挑战
背景概述
随着案件数量的不断增长,法律案件文件的起草工作面临着前所未有的压力。为了解决这一问题,大型语言模型(LLMs)的应用被提上日程。然而,现有的基准测试未能充分反映真实场景下起草法律案件文件的复杂性。为此,我们引入了CaseGen,这是一个针对中文法律领域的多阶段法律案件文件生成基准。CaseGen基于500个由法律专家注释的真实案例样本,涵盖了七个基本案件部分,并支持四个关键任务:起草辩护状、撰写庭审事实、撰写法律推理和生成判决结果。据我们所知,CaseGen是第一个旨在评估LLMs在法律案件文件生成背景下的基准。为了确保准确和全面的评估,我们设计了LLM-as-a-judge评估框架,并通过人工注释验证其有效性。我们对几个广泛使用的通用领域LLMs和法律特定LLMs进行了评估,突出了它们在案件文件生成方面的局限性,并指出了潜在改进的领域。这项工作标志着向自动化法律案件文件起草更有效框架迈进的一步,为在法律领域可靠应用AI铺平了道路。数据集和代码在https://github.com/CSHaitao/CaseGen上公开发布。
当前挑战
CaseGen面临的挑战包括:1)法律案件文件生成领域的挑战,需要LLMs具备高水平的专业性和准确性,但概率型LLMs容易产生幻觉,无法保证输出结果的正确性和可解释性;2)构建过程中的挑战,包括如何确保数据集的多样性和代表性,如何设计有效的评估框架以准确评估LLMs的性能。
常用场景
经典使用场景
CaseGen数据集在法律领域被广泛应用于自动生成法律案件文档。该数据集涵盖了从起诉书到判决结果的各个阶段,支持起草辩护词、撰写庭审事实、编写法律推理和生成判决结果等关键任务。通过使用CaseGen,研究人员和律师可以快速生成高质量的法律文档,提高工作效率和准确性。
实际应用
CaseGen数据集的实际应用场景包括法律文档自动化生成、法律咨询和案件检索等。通过使用CaseGen,法律专业人士可以节省时间和精力,将更多精力集中在高价值的分析工作上,提高法律服务的质量和效率。此外,CaseGen还可以用于训练和评估专门用于法律领域的语言模型,为法律人工智能应用提供支持。
衍生相关工作
CaseGen数据集的发布引发了众多相关研究的开展。例如,一些研究使用了CaseGen数据集来训练和评估专门用于法律领域的语言模型,以提高法律推理和文档生成的能力。此外,还有一些研究探索了将CaseGen与其他法律数据集相结合的方法,以构建更全面和多样化的法律人工智能训练数据集。这些相关工作进一步推动了法律人工智能领域的发展,并为未来研究提供了新的方向和思路。
以上内容由遇见数据集搜集并总结生成



