CAIL2018

arXiv2018-07-04 更新2024-06-21 收录

下载链接：

http://cail.cipsc.org.cn/

下载链接

链接失效反馈

资源简介：

CAIL2018是由清华大学计算机科学与技术系等机构联合创建的大型中文法律数据集，专注于判决预测。该数据集包含超过260万件刑事案件，数据来源于中国最高人民法院的公开判决文书，规模远超现有同类数据集。数据集内容详尽，包括适用的法律条款、罪名及刑期，旨在通过案件事实描述推断判决结果。创建过程中，数据集经过精心筛选和预处理，确保了数据的质量和适用性。CAIL2018的应用领域主要集中在法律智能系统，旨在提高法律专业人士的工作效率，并推动法律判决预测技术的进步。

CAIL2018 is a large-scale Chinese legal dataset jointly created by the Department of Computer Science and Technology of Tsinghua University and other institutions, focusing on judgment prediction. This dataset contains more than 2.6 million criminal cases, sourced from public judgment documents issued by the Supreme People's Court of China, with a scale far exceeding existing similar datasets. The dataset features comprehensive content, including applicable legal provisions, charges and sentences, aiming to infer judgment results via case fact descriptions. During the creation process, the dataset was carefully screened and preprocessed to ensure data quality and applicability. The application scenarios of CAIL2018 mainly center on legal intelligent systems, with the goals of improving the work efficiency of legal professionals and advancing the technology of legal judgment prediction.

提供机构：

清华大学计算机科学与技术系

创建时间：

2018-07-04

AI搜集汇总

数据集介绍

构建方式

CAIL2018数据集从中国裁判文书网收集了5,730,302份刑事文档，经过筛选和预处理，最终保留了2,676,075份具有判决结果的刑事案件文档。每个案件文档被结构化为事实描述和判决结果两部分，判决结果进一步细化为适用的法律条文、罪名和刑期。通过正则表达式从判决结果中提取相关信息，并过滤掉多被告案件和低频罪名及法律条文，确保数据集的高质量和实用性。

特点

CAIL2018数据集以其大规模和详细标注著称，包含超过260万份刑事案件，远超其他同类数据集。其标注不仅包括适用的法律条文和罪名，还涵盖了具体的刑期，为法律判决预测提供了丰富的信息。然而，数据集中的类别分布极不均衡，前10种罪名覆盖了79.0%的案件，而最低频的10种罪名仅覆盖0.12%的案件，这为模型训练带来了挑战。

使用方法

CAIL2018数据集适用于法律判决预测任务，可用于训练和评估文本分类模型。研究者可以利用该数据集进行法律条文、罪名和刑期的预测，通过实现如TFIDF+SVM、FastText和CNN等基线模型，评估其在不同子任务上的表现。数据集的发布旨在推动法律智能系统的研究，帮助提升法律判决预测的准确性和效率。

背景与挑战

背景概述

CAIL2018数据集由清华大学、北京大学、中国科学院软件研究所、中国司法大数据研究院和最高人民法院联合发布，旨在推动法律判决预测（Legal Judgment Prediction, LJP）领域的研究。该数据集于2018年首次发布，包含了超过260万份由中国最高人民法院发布的刑事案件文档，是迄今为止最大规模的公开法律判决预测数据集。CAIL2018不仅在规模上超越了以往的数据集，而且在判决结果的标注上更为详细和丰富，包括适用的法律条文、指控和刑期等信息。这些数据为研究人员提供了宝贵的资源，以开发和验证法律智能系统，从而提高司法工作的效率和准确性。

当前挑战

尽管CAIL2018数据集在规模和详细程度上具有显著优势，但其构建和应用过程中仍面临诸多挑战。首先，数据集中不同类别的分布极不均衡，前10种指控覆盖了79.0%的案件，而最底部的10种指控仅覆盖0.12%的案件，这使得预测低频指控和法律条文变得极为困难。其次，数据集中的多被告案件被过滤，增加了单一被告案件的处理难度。此外，实验结果表明，尽管现有模型在某些任务上表现良好，但在预测刑期等复杂任务上仍存在显著挑战，这表明法律判决预测任务仍需进一步的研究和改进。

常用场景

经典使用场景

CAIL2018数据集在法律判决预测领域中被广泛用于训练和评估模型，以预测刑事案件的判决结果。其经典使用场景包括通过案件的事实描述来推断适用的法律条文、指控类型以及刑期长度。这些预测任务不仅涵盖了文本分类的基本问题，还涉及复杂的法律推理和多标签分类问题。

解决学术问题

CAIL2018数据集解决了法律判决预测领域中长期存在的数据稀缺和标注不详的问题。通过提供超过260万条详细的刑事案件记录，该数据集为研究人员提供了一个大规模、高质量的资源，用于开发和验证法律智能系统。这不仅推动了法律判决预测技术的进步，还为法律领域的自动化和智能化提供了坚实的基础。

衍生相关工作

CAIL2018数据集的发布催生了一系列相关研究工作，特别是在法律判决预测和法律文本分类领域。例如，研究人员利用该数据集开发了基于深度学习的模型，如卷积神经网络（CNN）和快速文本分类（FastText），以提高判决预测的准确性。此外，该数据集还促进了法律文本的自然语言处理（NLP）技术的研究，推动了法律智能系统的进一步发展。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集