CAIL2019-SCM
收藏arXiv2019-11-25 更新2024-06-21 收录
下载链接:
https://github.com/china-ai-lawchallenge/CAIL2019/tree/master/scm
下载链接
链接失效反馈官方服务:
资源简介:
CAIL2019-SCM是由清华大学计算机科学与技术系创建的法律领域相似案例匹配数据集,包含8964个来自中国最高人民法院发布的私人借贷相关案例三元组。数据集旨在通过自动检测相似案例,辅助法律专业人士进行案例判断,确保判决的公正性。创建过程中,通过标注关键元素如借贷意图、利率方法等,确保案例间的相似性。该数据集主要应用于法律案例匹配研究,旨在解决法律系统中案例相似性判断的问题。
CAIL2019-SCM is a legal domain similarity case matching dataset created by the Department of Computer Science and Technology, Tsinghua University. It contains 8964 triplets of private lending-related cases released by the Supreme People's Court of China. The dataset aims to assist legal professionals in case adjudication by automatically detecting similar cases, so as to ensure the fairness of judicial judgments. During its development, key elements such as lending intent and interest rate calculation methods were annotated to ensure the validity of similarity assessment between cases. This dataset is mainly applied to legal case matching research, aiming to address the challenge of case similarity judgment in legal systems.
提供机构:
清华大学计算机科学与技术系
创建时间:
2019-11-20
搜集汇总
数据集介绍

构建方式
CAIL2019-SCM 数据集的构建过程首先从中国裁判文书网中筛选了大量与民间借贷相关的法律文件。为确保一个三元组中案例的相似性,研究团队对这些文件中的关键要素进行了标注,包括出借方和借款方的性质、担保类型、贷款用途、借贷意图、利率方法、约定期间利息、借贷交付形式、还款形式和贷款协议等。通过计算案例之间的 tf-idf 相似度和要素相似度,筛选出相似案例构建三元组。最终,CAIL2019-SCM 数据集包含了 8,964 个三元组,每个三元组包含三个案例的事实描述。为确保数据质量,每个三元组均由至少三名法律专业人士进行标注。
特点
CAIL2019-SCM 数据集的主要特点是专注于检测相似案例,并要求参与者判断一个三元组中哪两个案例更为相似。该数据集的案例均与民间借贷相关,且每个案例的事实描述均经过标注,为研究案例匹配提供了良好的基础。此外,CAIL2019-SCM 数据集在构建过程中采用了多种方法来保证案例的相似性,如计算 tf-idf 相似度和要素相似度等。最后,该数据集的标注由法律专业人士完成,保证了数据的质量。
使用方法
使用 CAIL2019-SCM 数据集进行相似案例匹配研究时,研究者可以根据任务需求选择合适的模型进行训练和测试。例如,可以使用卷积神经网络(CNN)、长短期记忆网络(LSTM)或 BERT 等模型来编码法律文档,并计算案例之间的相似度。此外,研究者还可以使用该数据集来评估现有方法的性能,并探索如何利用法律知识来提高案例匹配的准确性。
背景与挑战
背景概述
在法律系统中,相似案例匹配(SCM)扮演着重要的角色,特别是在普通法法律体系中。过去的相似案例决定了普通法体系中案件的判决结果。因此,法律专业人员通常需要花费大量时间寻找和判断相似案例,以证明判决的公正性。为了自动寻找相似案例,从而有益于法律系统,我们选择SCM作为中国人工智能和法律挑战(CAIL)的任务之一。CAIL是一项将人工智能技术应用于法律任务的竞赛,其目标是利用AI帮助法律系统。CAIL首次于2018年举办,CAIL2018的主要任务是预测事实描述的判决结果。判决结果包括指控、适用的法律条款和刑罚期限。CAIL2019包含三个不同的任务,包括法律问答、法律案例元素预测和相似案例匹配。我们将在本文中重点关注SCM。
当前挑战
CAIL2019-SCM的主要挑战包括:(1)文档之间的差异可能很小,因此很难确定哪两个文档更相似。此外,相似性是由法律工作者定义的。我们必须将法律知识融入到这项任务中,而不是在词汇层面计算相似性。(2)文档的长度相当长。大多数文档包含超过512个字符,因此现有的方法很难捕获文档级别的信息。
常用场景
经典使用场景
在法律领域,类似案例匹配(SCM)扮演着至关重要的角色,尤其是在普通法系中。CAIL2019-SCM数据集旨在检测类似案例,并要求参与者判断三个案例中哪两个案例更相似。通过在三元组中检测类似案例,该算法可以应用于对所有文档进行排序,以找到数据库中最相似的文档。该数据集已应用于多个研究项目,如法律问答、法律案件元素预测和类似案例匹配,以帮助法律专业人士更好地工作。
实际应用
CAIL2019-SCM数据集在实际应用中具有广泛的应用场景。例如,在法律领域中,该数据集可以帮助法律专业人士快速找到类似案例,以证明判决结果的公正性。此外,该数据集还可以应用于信息检索、自然语言处理和机器学习等领域,以提高相关技术的性能和效果。
衍生相关工作
CAIL2019-SCM数据集衍生了许多相关的经典工作。例如,一些研究项目利用该数据集来训练和评估机器学习模型,以提高法律案例匹配的准确性和效率。此外,一些研究项目还探索了如何将法律知识融入到类似案例匹配任务中,以更好地模拟法律推理过程。这些相关工作有助于推动法律人工智能技术的发展,并为法律专业人士提供更好的工具和服务。
以上内容由遇见数据集搜集并总结生成



