five

ClaimGen-CN

收藏
arXiv2025-08-24 更新2025-08-28 收录
下载链接:
https://github.com/JosieZhou00/ClaimGen-CN
下载链接
链接失效反馈
官方服务:
资源简介:
ClaimGen-CN是一个大规模的中文法律诉求生成数据集,由来自中国裁判文书网的207,748个民事案件文档构建而成。该数据集涵盖了100种最常见的民事案由,并提供了两个关键维度:事实性和清晰度,用于评估生成的诉求。数据集的构建旨在支持非专业人士(例如原告)在法律诉求生成方面的需求,通过提供原告的事实作为输入,并生成相应的诉求,以提高司法援助的可及性。

ClaimGen-CN is a large-scale Chinese legal claim generation dataset constructed from 207,748 civil case documents sourced from China Judgements Online. This dataset covers the 100 most prevalent civil case causes of action, and provides two critical dimensions, factuality and clarity, for evaluating generated legal claims. The dataset is developed to address the needs of non-professionals such as plaintiffs in legal claim generation, by taking the plaintiff's factual submissions as input and generating corresponding legal claims, thus improving the accessibility of judicial assistance.
提供机构:
浙江大学,奥地利因斯布鲁克大学
创建时间:
2025-08-24
原始信息汇总

ClaimGen-CN 数据集概述

数据集名称

ClaimGen-CN

主要用途

法律主张生成(Legal Claim Generation)

数据集规模

大规模(Large-scale)

语言

中文

来源

EMNLP 2025 Findings

获取地址

https://huggingface.co/datasets/Josieeee/ClaimGen-CN

联系方式

zhousiying@zju.edu.cn

搜集汇总
数据集介绍
构建方式
ClaimGen-CN数据集构建于中国裁判文书网公开的207,748份民事判决文书,经过多阶段严谨处理形成。首先筛选一审民事判决书,确保材料同质性,随后通过关键词分段提取原告诉称事实与诉讼请求作为任务输入与输出。为保障数据质量,仅保留法院完全支持原告诉求的案例作为测试集,最终覆盖100种案由,形成规模庞大且类别丰富的法律诉求生成语料库。
使用方法
数据集适用于法律诉求生成任务的训练与评估,输入为案件事实描述文本,输出为对应的法律诉求序列。研究者可采用零样本或微调方式测试模型性能,建议使用事实性与清晰度双维度指标进行评价。事实性关注生成内容与客观事实的一致性,清晰度衡量诉求表述的明确性与简洁性,二者结合可全面评估生成质量。测试时需确保输入文本符合民事案件事实表述规范,输出应体现法律诉求的规范性与可执行性。
背景与挑战
背景概述
ClaimGen-CN数据集由浙江大学研究团队于2025年构建,是首个面向中文法律诉请生成任务的大规模数据集。该数据集源自中国裁判文书网的20.7万份民事判决书,涵盖100种案由的民事纠纷案例。其核心研究目标是推动法律人工智能从辅助专业人士向服务非专业公众转型,通过生成式技术帮助原告根据案件事实自动生成合法合理的诉讼请求。该数据集突破了以往法律数据集局限于借贷纠纷的局限性,覆盖离婚纠纷、劳动合同纠纷、房屋租赁合同纠纷等多元场景,为司法普惠化提供了重要的数据基础和研究范式。
当前挑战
在法律诉请生成领域,模型需解决非结构化事实描述到结构化法律诉求的映射挑战,具体包括:事实准确性要求模型从当事人情感化、非专业的叙述中精确提取法律事实要素;法律合规性要求生成的诉请需符合《民法典》等法律法规的程式化表达规范;构建过程中面临标注复杂性挑战,需要法律专家对20余万份判决书中的事实陈述与诉讼请求进行精细对齐,并处理不同案由间法律要件的显著差异。此外,评估体系需超越传统BLEU等表面指标,构建事实性与清晰度双重维度的专业评估框架。
常用场景
经典使用场景
在法律人工智能领域,ClaimGen-CN数据集被广泛应用于民事法律诉请生成任务的研究与评估。该数据集通过提供大量真实案例的事实描述与对应诉请,为模型训练和验证提供了丰富素材。研究者通常利用该数据集构建端到端的生成模型,输入案件事实文本,输出符合法律规范且逻辑严谨的诉请表述,显著提升了法律文本生成的准确性与专业性。
解决学术问题
ClaimGen-CN有效解决了法律自然语言处理中非结构化文本到结构化法律诉请的转换难题。该数据集填补了法律AI在诉前阶段辅助非专业人士生成诉请的研究空白,突破了传统法律数据集仅关注法官辅助任务的局限。其引入的事实性与清晰度评估维度,为生成文本的质量评估提供了新的方法论框架,推动了法律文本生成的可解释性与可靠性研究。
实际应用
在司法实践中,ClaimGen-CN可作为智能法律助手的核心数据支撑,帮助缺乏法律背景的原告快速生成符合规范的诉讼请求。法律科技公司可基于该数据集开发诉前咨询系统,自动分析案件事实并输出初步法律意见。律师事务所亦可利用其构建内部案例检索与诉请生成工具,提升法律文书的起草效率与标准化程度。
数据集最近研究
最新研究方向
随着ClaimGen-CN数据集的发布,法律人工智能的研究重心正从传统的法官辅助任务转向面向非专业人士的诉状生成领域。该数据集作为首个中文法律诉状生成大规模基准,推动了基于事实描述自动生成法律诉求的前沿探索。当前研究聚焦于提升大语言模型在事实准确性与表达清晰度方面的表现,尤其关注零样本场景下的跨领域泛化能力。热点方向包括结合法律知识增强的推理框架、多模态信息融合策略,以及针对民事案件类型的细粒度评估指标体系。这一进展显著降低了公众获取法律服务的门槛,对促进司法普惠具有深远意义。
相关研究论文
  • 1
    ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation浙江大学,奥地利因斯布鲁克大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作