CAIL2019-SCM
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/china-ai-law-challenge/cail2019/tree/master/scm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CAIL2019-SCM,包含了中国最高人民法院发布的8,964个案例三元组,主要旨在识别相关案件。所有案例均属于私人借贷领域。该数据集的规模为8,964个三元组,任务目标是法律案例检索。
The dataset named CAIL2019-SCM consists of 8,964 case triples released by the Supreme People's Court of China. Its primary aim is to identify relevant cases. All cases fall within the field of private lending. This dataset has a scale of 8,964 triples, and its task objective is legal case retrieval.
提供机构:
Supreme People’s Court of China
搜集汇总
数据集介绍

构建方式
在司法智能领域,构建高质量的数据集对于推动相似案例匹配研究至关重要。CAIL2019-SCM数据集的构建过程体现了严谨的学术态度,其核心步骤包括案例筛选、要素标注与三元组生成。首先,所有案例均从中国裁判文书网中选取,并限定于民间借贷领域,以确保案例主题的一致性。随后,研究团队为每个案例标注了九类关键法律要素,如借贷双方属性、担保类型及利息约定等,这些要素为衡量案例相似性提供了结构化依据。在此基础上,通过计算案例间的TF-IDF相似度与要素相似度,筛选出潜在相似案例以构建三元组。最终,由至少三名法律专业人士对每个三元组进行人工标注,确定其中哪两个案例更为相似,从而确保了数据集的权威性与可靠性。
特点
CAIL2019-SCM数据集在司法文本匹配任务中展现出鲜明的特点。该数据集包含8,964个三元组,每个三元组由三个民间借贷案例的事实描述组成,要求模型判断其中哪两个案例具有更高的相似性。案例文本长度普遍超过512字符,这对模型处理长文档能力提出了挑战。数据集的相似性判定基于法律专业知识,而非简单的词汇重叠,因此要求模型能够深入理解法律语义与推理逻辑。此外,数据集划分为小规模训练集、测试集以及大规模训练集、验证集和测试集,为模型训练与评估提供了灵活的分层结构。这些特点使得CAIL2019-SCM成为推动法律领域深度语义匹配研究的重要资源。
使用方法
CAIL2019-SCM数据集的使用方法围绕相似案例匹配任务展开,为研究者提供了系统的实验框架。输入数据为三元组形式的案例事实描述,模型需要输出查询案例与两个候选案例之间的相似性比较结果。研究通常采用孪生网络架构,利用CNN、LSTM或BERT等编码器将文本转换为分布式表示,再通过线性层计算相似度得分。训练过程中使用二元交叉熵损失函数进行优化,并以准确率作为主要评估指标。数据集的官方划分支持模型在大规模训练集上进行学习,并在验证集与测试集上验证性能。此外,数据集中提供的法律要素标注信息可作为辅助特征,帮助模型融入领域知识,从而提升匹配的精确度与可解释性。
背景与挑战
背景概述
在司法智能领域,相似案例匹配对于保障判决公正性与一致性具有深远意义。CAIL2019-SCM数据集由清华大学联合最高人民法院、中国司法大数据研究院等机构于2019年共同构建,聚焦于民间借贷领域的法律文书相似性判别。该数据集包含8,964个由事实描述组成的三元组案例,旨在通过比较三元组中案例对的相似程度,推动法律文本语义匹配技术的发展。作为中国AI与法律挑战赛(CAIL)的核心任务之一,该数据集不仅为自然语言处理技术在司法场景的应用提供了基准平台,亦对提升法律工作者检索效率、促进司法智能化进程产生了重要影响。
当前挑战
相似案例匹配任务面临的核心挑战在于法律文本的复杂性与专业性。首先,案例间的差异可能极为细微,仅依赖词汇层面相似度计算难以捕捉深层次的法律语义关联,需将法律知识如借贷意图、担保类型等要素融入模型推理。其次,法律文书通常篇幅较长,多数文档超过512字符,传统文本匹配模型难以有效建模文档级信息。在数据集构建过程中,为确保三元组中案例具有可比性,需对大量民间借贷案例进行精细化要素标注,并通过多轮法律专家协同标注以达成一致,这一过程对标注质量与领域知识依赖度极高。
常用场景
经典使用场景
在司法智能领域,相似案例匹配是支撑法律决策的关键环节,CAIL2019-SCM数据集为此提供了精准的研究平台。该数据集通过构建包含民间借贷案件的三元组,要求模型识别其中最为相似的两个案例,从而模拟法律实践中检索判例的核心过程。这一设计不仅检验了模型对长文本语义的深层理解能力,更推动了法律知识与计算技术的深度融合,为自动化司法辅助系统奠定了数据基础。
衍生相关工作
CAIL2019-SCM的发布催生了一系列法律文本匹配的创新研究。例如,基于孪生网络结构的深度模型被广泛适配于该任务,结合BERT等预训练语言模型以增强语义表征能力。后续工作进一步探索了多粒度注意力机制、法律要素增强编码等方法,显著提升了匹配精度。这些研究不仅丰富了法律自然语言处理的技术体系,也为CAIL系列竞赛及其他法律数据集(如CAIL2018)提供了方法论上的延续与拓展。
数据集最近研究
最新研究方向
在司法人工智能领域,CAIL2019-SCM数据集推动了相似案例匹配任务的前沿探索。当前研究聚焦于融合法律领域知识的深度语义匹配模型,旨在克服传统文本相似度计算在长文档和法律术语理解上的局限。热点方向包括利用预训练语言模型(如BERT)结合法律要素标注信息,构建层次化注意力机制,以捕捉案例事实描述中的关键法律逻辑。这一进展不仅提升了司法检索系统的智能化水平,也为实现法律裁判的公正性和效率提供了技术支撑,促进了人工智能与法律实务的深度融合。
相关研究论文
- 1CAIL2019-SCM: A Dataset of Similar Case Matching in Legal Domain清华大学计算机科学与技术系 · 2019年
以上内容由遇见数据集搜集并总结生成



