five

CAIL2018|法律判决预测数据集|法律智能系统数据集

收藏
arXiv2018-07-04 更新2024-06-21 收录
法律判决预测
法律智能系统
下载链接:
http://cail.cipsc.org.cn/
下载链接
链接失效反馈
资源简介:
CAIL2018是由清华大学计算机科学与技术系等机构联合创建的大型中文法律数据集,专注于判决预测。该数据集包含超过260万件刑事案件,数据来源于中国最高人民法院的公开判决文书,规模远超现有同类数据集。数据集内容详尽,包括适用的法律条款、罪名及刑期,旨在通过案件事实描述推断判决结果。创建过程中,数据集经过精心筛选和预处理,确保了数据的质量和适用性。CAIL2018的应用领域主要集中在法律智能系统,旨在提高法律专业人士的工作效率,并推动法律判决预测技术的进步。
提供机构:
清华大学计算机科学与技术系
创建时间:
2018-07-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
CAIL2018数据集从中国裁判文书网收集了5,730,302份刑事文档,经过筛选和预处理,最终保留了2,676,075份具有判决结果的刑事案件文档。每个案件文档被结构化为事实描述和判决结果两部分,判决结果进一步细化为适用的法律条文、罪名和刑期。通过正则表达式从判决结果中提取相关信息,并过滤掉多被告案件和低频罪名及法律条文,确保数据集的高质量和实用性。
特点
CAIL2018数据集以其大规模和详细标注著称,包含超过260万份刑事案件,远超其他同类数据集。其标注不仅包括适用的法律条文和罪名,还涵盖了具体的刑期,为法律判决预测提供了丰富的信息。然而,数据集中的类别分布极不均衡,前10种罪名覆盖了79.0%的案件,而最低频的10种罪名仅覆盖0.12%的案件,这为模型训练带来了挑战。
使用方法
CAIL2018数据集适用于法律判决预测任务,可用于训练和评估文本分类模型。研究者可以利用该数据集进行法律条文、罪名和刑期的预测,通过实现如TFIDF+SVM、FastText和CNN等基线模型,评估其在不同子任务上的表现。数据集的发布旨在推动法律智能系统的研究,帮助提升法律判决预测的准确性和效率。
背景与挑战
背景概述
CAIL2018数据集由清华大学、北京大学、中国科学院软件研究所、中国司法大数据研究院和最高人民法院联合发布,旨在推动法律判决预测(Legal Judgment Prediction, LJP)领域的研究。该数据集于2018年首次发布,包含了超过260万份由中国最高人民法院发布的刑事案件文档,是迄今为止最大规模的公开法律判决预测数据集。CAIL2018不仅在规模上超越了以往的数据集,而且在判决结果的标注上更为详细和丰富,包括适用的法律条文、指控和刑期等信息。这些数据为研究人员提供了宝贵的资源,以开发和验证法律智能系统,从而提高司法工作的效率和准确性。
当前挑战
尽管CAIL2018数据集在规模和详细程度上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集中不同类别的分布极不均衡,前10种指控覆盖了79.0%的案件,而最底部的10种指控仅覆盖0.12%的案件,这使得预测低频指控和法律条文变得极为困难。其次,数据集中的多被告案件被过滤,增加了单一被告案件的处理难度。此外,实验结果表明,尽管现有模型在某些任务上表现良好,但在预测刑期等复杂任务上仍存在显著挑战,这表明法律判决预测任务仍需进一步的研究和改进。
常用场景
经典使用场景
CAIL2018数据集在法律判决预测领域中被广泛用于训练和评估模型,以预测刑事案件的判决结果。其经典使用场景包括通过案件的事实描述来推断适用的法律条文、指控类型以及刑期长度。这些预测任务不仅涵盖了文本分类的基本问题,还涉及复杂的法律推理和多标签分类问题。
解决学术问题
CAIL2018数据集解决了法律判决预测领域中长期存在的数据稀缺和标注不详的问题。通过提供超过260万条详细的刑事案件记录,该数据集为研究人员提供了一个大规模、高质量的资源,用于开发和验证法律智能系统。这不仅推动了法律判决预测技术的进步,还为法律领域的自动化和智能化提供了坚实的基础。
衍生相关工作
CAIL2018数据集的发布催生了一系列相关研究工作,特别是在法律判决预测和法律文本分类领域。例如,研究人员利用该数据集开发了基于深度学习的模型,如卷积神经网络(CNN)和快速文本分类(FastText),以提高判决预测的准确性。此外,该数据集还促进了法律文本的自然语言处理(NLP)技术的研究,推动了法律智能系统的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录