APR_Criminal_Case_Database
收藏Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/xuanzhu07/APR_Criminal_Case_Database
下载链接
链接失效反馈官方服务:
资源简介:
APR刑事案例数据库(中文)是一个专为支持类比判例检索(APR)研究而构建的数据集。该数据集包含172,445个真实刑事案例,时间跨度为2001年至2020年,覆盖中国25个省份,具有充分的地理和时间多样性。数据来源于公开法律数据库,如Lawlib等,并经过严格匿名化处理以保护个人隐私。所有案例文档均移除了敏感个人信息(如真实姓名、特定身份证号码等)。本数据集仅限学术研究使用,特别是用于评估自然语言处理算法和减少大语言模型幻觉,严禁任何商业应用或恶意使用。数据收集流程基于开源项目liuhuanyong/LawCrimeMining的工作进行改进。
创建时间:
2026-04-08
原始信息汇总
APR刑事案例数据库(中文)
数据集描述
该数据集旨在支持类比判例检索研究。它包含172,445个真实刑事案例,时间跨度为2001年至2020年,覆盖中国25个省份。该广泛语料库为稳健的类比检索研究提供了充分的地理和时间多样性。
数据来源与致谢
原始法律文书主要收集自公共法律数据库,包括Lawlib。数据收集流程基于开源项目liuhuanyong/LawCrimeMining(基于语料库构建和NLP方法内容分析的法律犯罪挖掘)的基础工作进行了调整。
伦理考量与隐私
数据集由司法判决组成,这些判决本质上是公开记录。为保护个人隐私并严格遵守学术伦理准则,所有案例文件均已彻底匿名化处理,移除了敏感个人信息(例如,个人真实姓名、特定身份证号码)。该数据集仅发布用于学术研究目的——特别是评估NLP算法和减轻大语言模型幻觉——并严格禁止任何商业应用或恶意使用。
搜集汇总
数据集介绍

构建方式
在司法信息学领域,构建高质量的法律案例数据库对于推动类比判例检索研究至关重要。APR刑事案例数据库的构建过程依托于公开的法律资源,通过精心设计的采集与处理流程实现。其原始数据主要来源于Lawlib等公共法律数据库,涵盖了2001年至2020年间中国25个省份的真实刑事案例。在数据收集阶段,研究团队借鉴了开源项目LawCrimeMining的基础工作,并在此基础上优化了数据采集管道。所有案例文档均经过严格的匿名化处理,以消除敏感个人信息,确保符合学术伦理规范。最终形成的数据库包含172,445个案例,为后续研究提供了坚实的数据基础。
特点
该数据库在时空覆盖与内容结构上展现出显著优势。从地理分布来看,案例覆盖中国25个省份,体现了区域司法实践的多样性;时间跨度长达二十年,能够反映法律适用与社会变迁的互动轨迹。案例内容均为真实的刑事司法文书,具有高度的实践参考价值。为确保数据使用的合规性,所有案例均经过深度匿名处理,有效保护了涉案当事人的隐私权益。这种设计使得数据库既能满足学术研究对数据规模与质量的要求,又严格遵循了数据伦理准则,为法律人工智能研究提供了可靠且安全的语料资源。
使用方法
在自然语言处理与法律智能交叉研究中,该数据库主要服务于类比判例检索任务的算法评估与模型优化。研究人员可利用该数据集训练或测试法律文本相似性计算、案例自动摘要、法律推理增强等NLP模型。具体应用时,建议将案例按时间或地域划分进行交叉验证,以考察模型的泛化能力与稳定性。鉴于数据库已进行匿名化处理,使用者可直接专注于文本语义与结构特征的分析,而无需担忧隐私泄露风险。需要强调的是,该数据集仅限用于非商业的学术研究,严禁任何形式的商业利用或恶意行为,以维护司法数据的严肃性与研究伦理。
背景与挑战
背景概述
APR刑事案例数据库由研究团队于2021年前后构建,旨在支持类比先例检索这一法律智能核心任务。该数据库汇集了2001年至2020年间中国25个省份的172,445份真实刑事案例,为法律文本挖掘与自然语言处理研究提供了时空分布广泛的高质量语料。其创建借鉴了开源项目LawCrimeMining的基础工作,并依托Lawlib等公开司法数据库进行采集与处理,显著推动了法律领域类比推理与检索算法的发展,对提升司法效率与人工智能辅助决策具有重要学术价值。
当前挑战
该数据集致力于解决法律领域类比先例检索的挑战,即如何从海量案例中精准匹配事实相似、法律适用一致的先例,以辅助司法决策。构建过程中面临多重困难:原始司法文书结构异构、表述专业且冗长,需进行高效解析与标准化;同时,为遵循学术伦理与隐私保护要求,必须彻底匿名化处理敏感个人信息,确保数据合规可用。此外,案例涵盖不同省份与年份,需平衡地域代表性与时间跨度,以保障检索模型的泛化能力与稳健性。
常用场景
经典使用场景
在司法智能与自然语言处理领域,APR刑事案例数据库为类比判例检索提供了关键支持。该数据集汇集了跨越二十载、覆盖中国二十五省的十七万余真实刑事案例,其时空多样性为构建稳健的类比推理模型奠定了坚实基础。研究者常利用这一大规模语料库,训练深度神经网络以识别案例间的法律相似性,从而自动化地检索相关历史判例,辅助司法决策的参考流程。
解决学术问题
该数据集有效应对了法律人工智能中类比推理的若干核心挑战。通过提供大规模、高质量且经过匿名化处理的真实案例,它助力研究者探索如何精准量化案件事实与法律条文间的语义关联,进而缓解大型语言模型在法律领域可能产生的幻觉问题。其存在不仅推动了法律文本挖掘技术的进步,也为构建可解释、可信赖的司法辅助系统提供了实证基础,对促进计算法学与司法公正的融合具有深远意义。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于法律文本分析与信息检索的经典研究工作。例如,基于其构建的类比判例检索模型,常被用作评估法律领域自然语言处理算法性能的基准。后续研究进一步探索了结合图神经网络进行案例关系挖掘,或利用跨模态学习整合法律条文与案例事实,这些工作不断拓展着计算法学的研究边界,并促进了开源法律知识库的协同发展。
以上内容由遇见数据集搜集并总结生成



