five

CaseGen

收藏
Hugging Face2025-02-26 更新2025-02-27 收录
下载链接:
https://huggingface.co/datasets/CSHaitao/CaseGen
下载链接
链接失效反馈
官方服务:
资源简介:
CaseGen是一个针对中文法律领域的多阶段法律案例文档生成的大型语言模型(LLM)评估基准。该数据集包含500个真实世界的法律案例实例,每个实例分为七个部分:指控、辩护、证据、事件、事实、理由和判决。它支持四个关键任务:起草辩护陈述、撰写庭审事实、构建法律理由和生成判决结果。

CaseGen is a large language model (LLM) evaluation benchmark for multi-stage legal case document generation in the Chinese legal domain. This dataset contains 500 real-world legal case instances, each divided into seven sections: charges, defenses, evidence, incidents, case facts, legal grounds, and judgments. It supports four core tasks: drafting defense statements, writing trial facts, constructing legal grounds, and generating judgment outcomes.
创建时间:
2025-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
CaseGen数据集的构建,旨在针对中国法律领域的语言模型生成法律案件文档的能力进行评估。该数据集通过搜集500个真实世界的法律案例,每个案例分为七个部分:指控、辩护、证据、事件、事实、理由和判决。这些案例文档由法律专家进行预处理和注释,确保数据的完整性与质量,并以JSON格式进行数据组织,便于使用。
特点
CaseGen数据集的特点在于,它支持四大关键任务:起草辩护陈述、撰写庭审事实、构建法律理由以及生成判决结果。数据集覆盖了法律案件文档生成的多阶段任务框架,且提供了利用语言模型进行自动评估的管道。此外,该数据集在维护数据完整性的同时,注重质量,并采用Creative Commons BY-NC-SA 4.0许可证发布,适用于非商业性学术使用。
使用方法
在使用CaseGen数据集时,用户可以依据数据集提供的多阶段生成任务框架,针对不同的法律文档生成任务进行模型训练和评估。数据集包含的案例文档已经过专家标注,用户可以直接加载JSON格式的数据,进行模型训练、测试以及性能评估。同时,数据集的开放许可使得符合条件的学术研究者能够轻松获取并利用这些资源。
背景与挑战
背景概述
CaseGen数据集,专为评估大型语言模型在生成中文法律案件文档领域的性能而设计。该数据集创建于近年来,汇集了500个真实世界的法律案例实例,每个案例分为起诉、辩护、证据、事件、事实、理由和判决七个部分,旨在支持起草辩护陈述、撰写庭审事实、构建法律推理以及生成判决结果等四个关键任务。该数据集由相关领域的专家进行数据收集和预处理,并以JSON格式呈现,便于使用。其研究成果为法律文本生成领域提供了重要的基准,对相关学术研究和应用开发产生了显著影响。
当前挑战
CaseGen数据集在构建和应用过程中面临诸多挑战。首先,如何确保数据的质量和完整性是一个关键问题,尤其是在处理法律文本时,信息的准确性和可靠性至关重要。其次,法律领域的多样性和复杂性使得多阶段生成任务的设计和自动化评估流程的构建充满挑战。此外,数据集在解决法律文本生成问题的同时,还需应对如何保护个人隐私和遵守数据使用许可的限制。
常用场景
经典使用场景
在文本生成领域,CaseGen数据集作为评估大型语言模型在生成中文法律案件文档方面的基准,其经典使用场景在于通过四项关键任务:起草辩护陈述、撰写庭审事实、构建法律推理以及生成判决结果,来检验模型的多阶段生成能力。
解决学术问题
CaseGen数据集解决了学术研究中如何在法律文本生成方面评估和提升大型语言模型性能的问题,对于法律文本自动生成、法律信息抽取以及法律推理等研究具有重大意义。
衍生相关工作
基于CaseGen数据集,研究者可以进一步开展关于法律文本生成模型的研究,包括但不限于改进模型的多阶段生成策略,以及探索在多语言环境下的法律文本生成应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作