five

CAIL2018|法律判决预测数据集|法律智能系统数据集

收藏
arXiv2018-07-04 更新2024-06-21 收录
法律判决预测
法律智能系统
下载链接:
http://cail.cipsc.org.cn/
下载链接
链接失效反馈
资源简介:
CAIL2018是由清华大学计算机科学与技术系等机构联合创建的大型中文法律数据集,专注于判决预测。该数据集包含超过260万件刑事案件,数据来源于中国最高人民法院的公开判决文书,规模远超现有同类数据集。数据集内容详尽,包括适用的法律条款、罪名及刑期,旨在通过案件事实描述推断判决结果。创建过程中,数据集经过精心筛选和预处理,确保了数据的质量和适用性。CAIL2018的应用领域主要集中在法律智能系统,旨在提高法律专业人士的工作效率,并推动法律判决预测技术的进步。
提供机构:
清华大学计算机科学与技术系
创建时间:
2018-07-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
CAIL2018数据集从中国裁判文书网收集了5,730,302份刑事文档,经过筛选和预处理,最终保留了2,676,075份具有判决结果的刑事案件文档。每个案件文档被结构化为事实描述和判决结果两部分,判决结果进一步细化为适用的法律条文、罪名和刑期。通过正则表达式从判决结果中提取相关信息,并过滤掉多被告案件和低频罪名及法律条文,确保数据集的高质量和实用性。
特点
CAIL2018数据集以其大规模和详细标注著称,包含超过260万份刑事案件,远超其他同类数据集。其标注不仅包括适用的法律条文和罪名,还涵盖了具体的刑期,为法律判决预测提供了丰富的信息。然而,数据集中的类别分布极不均衡,前10种罪名覆盖了79.0%的案件,而最低频的10种罪名仅覆盖0.12%的案件,这为模型训练带来了挑战。
使用方法
CAIL2018数据集适用于法律判决预测任务,可用于训练和评估文本分类模型。研究者可以利用该数据集进行法律条文、罪名和刑期的预测,通过实现如TFIDF+SVM、FastText和CNN等基线模型,评估其在不同子任务上的表现。数据集的发布旨在推动法律智能系统的研究,帮助提升法律判决预测的准确性和效率。
背景与挑战
背景概述
CAIL2018数据集由清华大学、北京大学、中国科学院软件研究所、中国司法大数据研究院和最高人民法院联合发布,旨在推动法律判决预测(Legal Judgment Prediction, LJP)领域的研究。该数据集于2018年首次发布,包含了超过260万份由中国最高人民法院发布的刑事案件文档,是迄今为止最大规模的公开法律判决预测数据集。CAIL2018不仅在规模上超越了以往的数据集,而且在判决结果的标注上更为详细和丰富,包括适用的法律条文、指控和刑期等信息。这些数据为研究人员提供了宝贵的资源,以开发和验证法律智能系统,从而提高司法工作的效率和准确性。
当前挑战
尽管CAIL2018数据集在规模和详细程度上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集中不同类别的分布极不均衡,前10种指控覆盖了79.0%的案件,而最底部的10种指控仅覆盖0.12%的案件,这使得预测低频指控和法律条文变得极为困难。其次,数据集中的多被告案件被过滤,增加了单一被告案件的处理难度。此外,实验结果表明,尽管现有模型在某些任务上表现良好,但在预测刑期等复杂任务上仍存在显著挑战,这表明法律判决预测任务仍需进一步的研究和改进。
常用场景
经典使用场景
CAIL2018数据集在法律判决预测领域中被广泛用于训练和评估模型,以预测刑事案件的判决结果。其经典使用场景包括通过案件的事实描述来推断适用的法律条文、指控类型以及刑期长度。这些预测任务不仅涵盖了文本分类的基本问题,还涉及复杂的法律推理和多标签分类问题。
解决学术问题
CAIL2018数据集解决了法律判决预测领域中长期存在的数据稀缺和标注不详的问题。通过提供超过260万条详细的刑事案件记录,该数据集为研究人员提供了一个大规模、高质量的资源,用于开发和验证法律智能系统。这不仅推动了法律判决预测技术的进步,还为法律领域的自动化和智能化提供了坚实的基础。
衍生相关工作
CAIL2018数据集的发布催生了一系列相关研究工作,特别是在法律判决预测和法律文本分类领域。例如,研究人员利用该数据集开发了基于深度学习的模型,如卷积神经网络(CNN)和快速文本分类(FastText),以提高判决预测的准确性。此外,该数据集还促进了法律文本的自然语言处理(NLP)技术的研究,推动了法律智能系统的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

5 Key Ways To Reach QuickBooks Payroll Support A Step By Step Guide

The most direct and reliable method is simply calling the QuickBooks Payroll Support Number at 1(855)-996–0045. QuickBooks® Payroll is powerful and reliable —1(855)-996–0045 until something goes wrong. Whether you’re locked out of your company file, experiencing software errors, or running into payroll issues, nothing is more frustrating than being stuck in a loop with automated help.1(855)-996–0045 If you’re ready to speak to a real human, these seven proven methods will help you bypass the bots and reach the expert support you need. Plus, we’ve included the QuickBooks 1(855)-996–0045 Payroll Support Number in each step so you’ll always know where to call. ☎️1(855)-996–0045

Papers with Code 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录