C-CLAIM: Chinese Criminal Law Article and Interpretations Mapping Dataset

github2026-04-10 更新2026-04-12 收录

下载链接：

https://github.com/Shiori-pope/c-claim

下载链接

链接失效反馈

官方服务：

资源简介：

C-CLAIM提供了中华人民共和国刑法条文与案由类型（罪名）的系统映射，包括司法解释和官方文件。适用于法律信息学、案件分类、智能司法等研究和应用场景。

The C-CLAIM dataset provides a systematic mapping between the Criminal Law provisions of the People's Republic of China and case cause types (accusations), covering judicial interpretations and official documents. It is applicable to research and application scenarios such as legal informatics, case classification, and intelligent justice.

创建时间：

2026-04-10

搜集汇总

数据集介绍

构建方式

在刑事法律信息学领域，构建高质量的数据集需要严谨的法律专业知识与先进的技术手段相结合。C-CLAIM数据集的构建过程体现了这一原则，其核心数据来源于《中华人民共和国刑法》的正式条文及所有修正案，并纳入了全国人大常委会的重要决定以确保罪名的全面覆盖。刑法条文部分由法律专业人士进行高精度的人工标注，逐条审阅以确定对应的罪名（案由）。司法解释与司法文件则主要爬取自最高人民法院公报网站，并采用基于大语言模型的分层分类方法进行初步映射，再经由专家审核以确保罪名关联的准确性，从而形成了条文、章节、罪名及解释文件之间系统化的映射关系。

特点

该数据集在中文法律智能研究领域展现出鲜明的特色。其核心在于提供了刑法条文与标准化罪名之间系统、精确的映射关系，涵盖了484个标准案由，并通过章节案由表实现了章节层级的聚合索引。数据集结构清晰，不仅包含402条刑法条文及其分类，还整合了178份司法解释和164份司法文件，每份文件均标注了相关的法律章节和罪名。这种多源异构数据的有机整合，为研究者提供了从抽象法条到具体罪名、再到相关司法实践指引的完整知识链条，极大地支持了法律条文理解、案例分类及智能司法等场景的深度分析。

使用方法

为便于研究与应用，该数据集提供了简洁的Python接口。用户可通过安装相应的Python包并调用诸如`load_articles`、`load_interpretations`等函数，轻松加载刑法条文、司法解释等结构化数据。数据集支持灵活的查询功能，例如，可以按章节筛选条文，或通过`find_chapters_by_case_type`函数依据具体罪名反向查找所属的法律章节。对于司法解释，支持基于标题关键词的模糊匹配检索。这种设计使得研究人员能够快速构建实验流程，进行法律条文的信息抽取、罪名预测模型的训练与评估，或开展法律知识图谱的构建等相关工作。

背景与挑战

背景概述

在计算法学与法律信息学领域，将成文法条文与司法实践中的具体案由进行系统化映射，是构建智能司法辅助系统的关键基础。C-CLAIM数据集由刘智杰、冯子萱、邱然、葛嘉荣等研究人员于2026年共同创建，旨在为《中华人民共和国刑法》提供条文、司法解释及司法文件与标准化案由之间的精确关联。该数据集的核心研究问题聚焦于解决法律条文语义与复杂案由分类之间的对应关系，通过整合402条刑法条文、178项司法解释及164份司法文件，并标注出484个标准案由，为法律文本的自动化处理、类案推送及司法知识图谱构建提供了高质量的结构化资源，显著推动了中文法律自然语言处理与人工智能辅助裁判的研究进程。

当前挑战

该数据集致力于解决法律智能领域中的核心挑战，即如何实现从抽象、概括性的刑法条文到具体、细化的刑事案由的精准自动映射。这一任务面临法律语言的高度专业性与语义模糊性，同一法条可能对应多个关联罪名，而司法解释的不断更新也增加了映射体系的动态维护难度。在构建过程中，挑战主要体现于数据标注的复杂性与一致性保障。尽管采用了法律专家的高精度人工标注与基于大语言模型的分层分类相结合的方法，但刑法条文历经多次修正，且司法解释来源分散，确保所有映射关系的全面覆盖与权威准确仍需耗费大量专业人力进行校验与纠偏，以避免遗漏或错误关联。

常用场景

经典使用场景

在计算法律学领域，C-CLAIM数据集为研究者提供了系统化的中国刑法条文与案由映射资源，其经典应用场景聚焦于法律文本的智能分析与自动化处理。通过该数据集，学者能够构建基于机器学习的案由分类模型，实现刑法条文与司法案例的精准关联，从而辅助法律检索系统的开发。这一场景不仅推动了法律信息检索的效率提升，也为后续的智能司法应用奠定了数据基础。

解决学术问题

C-CLAIM数据集有效解决了法律信息学中条文与案由映射缺失的核心问题，为自动化法律分析提供了结构化数据支持。该数据集通过人工标注与专家审核，确保了映射关系的准确性，从而助力于法律文本挖掘、司法决策支持系统的研究。其意义在于填补了中文刑法领域标准化数据集的空白，促进了计算法律学与人工智能的交叉融合，为法律智能化发展提供了关键资源。

衍生相关工作

基于C-CLAIM数据集，已衍生出多项经典研究工作，例如利用该数据集训练深度学习模型进行刑法条文的多标签分类，以及构建司法知识图谱以实现条文与案例的语义关联。这些工作进一步拓展了法律智能化的应用边界，如开发智能量刑辅助系统、自动化法律文书生成工具等，为法律人工智能领域提供了重要的技术参考与实践案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集