CCVG

Name: CCVG
Creator: 中山大学计算机科学与工程学院
Published: 2025-10-10 19:42:17
License: 暂无描述

arXiv2025-10-10 更新2025-10-14 收录

下载链接：

https://wenshu.court.gov.cn/

下载链接

链接失效反馈

官方服务：

资源简介：

CCVG数据集是针对刑事法院观点生成任务构建的高质量中文数据集，包含超过11万例中国刑事案例，每例案例都包含事实描述和对应的法院观点。该数据集是通过从中国裁判文书网收集1985年至2021年的中国法律案例文档，并进行多步骤的筛选和预处理得到的。CCVG数据集为刑事法院观点生成任务提供了丰富的数据资源，有助于研究法律人工智能领域，特别是在自动生成法律文档和进行法律推理方面。

The CCVG dataset is a high-quality Chinese dataset developed for the criminal court opinion generation task, which comprises over 110,000 Chinese criminal cases. Each case contains both the factual statement and the corresponding court opinion. This dataset is constructed by collecting legal case documents from 1985 to 2021 via China Judgments Online, followed by multi-stage screening and preprocessing. The CCVG dataset offers rich data resources for the criminal court opinion generation task, supporting research in the domain of legal artificial intelligence, particularly in the fields of automated legal document generation and legal reasoning.

提供机构：

中山大学计算机科学与工程学院

创建时间：

2025-10-10

搜集汇总

数据集介绍

构建方式

在司法人工智能领域，构建高质量数据集是支撑法律文书自动生成任务的关键基础。CCVG数据集的构建始于从中国裁判文书网系统收集1985年至2021年的刑事案例文书，通过多阶段筛选与预处理流程确保数据质量。针对中国法律文书缺乏显式章节标记的特点，研究团队基于标准短语设计正则表达式，准确提取以“经审理查明”起始的事实描述段和以“本院认为”起始的法院观点段，并对无法成功提取任一章节的样本予以剔除。为确保数据规范性，进一步实施基于长度的过滤机制，将事实描述或法院观点文本长度超出50-512字符范围的样本排除，最终形成包含11万余案例的高质量结构化文档对。

使用方法

在具体应用层面，CCVG数据集为法律文本生成模型的训练与评估提供了标准化范式。研究团队设计了专门的任务提示模板，将系统角色设定为法官身份，以事实描述作为查询输入，法院观点作为预期响应，构建出符合司法实践的逻辑框架。模型训练采用Swift框架进行指令微调，通过3轮迭代优化参数，在单张NVIDIA RTX 4090显卡上完成计算过程。评估体系兼顾文本质量与法律准确性，既采用ROUGE和BLEU指标衡量生成文本的语言相似度，又通过罪名预测准确率与宏F1值检验法律推理的正确性。这种多维评估机制确保生成结果既保持语言流畅性，又符合司法裁判的专业规范。

背景与挑战

背景概述

随着法律人工智能的快速发展，刑事法院观点生成作为司法决策支持的关键任务，旨在自动生成法律案件文档中的法院观点部分。2025年，中山大学的研究团队创建了CCVG数据集，包含超过11万条中文刑事案件记录，每条记录均包含事实描述与对应法院观点的配对。该数据集针对法律文本的复杂性和多样性，为轻量化大语言模型的领域专用训练提供了高质量基础，推动了法律文档生成技术的精准化发展。

当前挑战

刑事法院观点生成任务面临法律文本结构隐晦与语义严谨性的双重挑战，需从非结构化事实描述中准确提取法律要素并生成符合司法逻辑的文本。在数据构建过程中，由于中文法律文档缺乏显式章节标记，研究团队需通过正则表达式识别‘经审理查明’等特定短语来划分事实与观点段落，同时需处理指控类型分布不均衡与文本长度差异显著等问题，确保生成内容的法律一致性与事实准确性。

常用场景

经典使用场景

在司法人工智能领域，CCVG数据集主要应用于刑事裁判文书自动生成任务。该数据集通过11万余个中文刑事案件的事实描述与裁判理由配对，为法律文本生成研究提供了重要支撑。研究人员利用该数据集训练语言模型，使其能够根据案件事实自动生成符合法律逻辑的裁判理由部分，有效提升了法律文书生成的准确性和专业性。

解决学术问题

CCVG数据集有效解决了法律人工智能领域的关键问题，包括法律文本的结构化建模、法律概念的准确提取以及裁判理由的自动生成。通过构建高质量的法律领域数据集，该研究突破了通用语言模型在法律专业领域表现不佳的瓶颈，为轻量化大语言模型在法律场景的应用提供了实证依据，推动了法律人工智能从理论研究向实际应用的转化。

实际应用

在实际应用层面，CCVG数据集支撑的法律文本生成系统可辅助法官快速起草裁判文书，减轻司法工作负担。该系统能够根据案件事实自动生成初步裁判理由，为法官提供参考模板，同时确保生成内容符合法律规范和逻辑要求。这种自动化工具在提升司法效率的同时，也保证了法律文书的质量和规范性。

数据集最近研究