LeCaRDv2

Name: LeCaRDv2
Creator: 清华大学计算机科学与技术系
Published: 2023-10-27 01:32:55
License: 暂无描述

arXiv2023-10-27 更新2024-06-21 收录

下载链接：

https://github.com/THUIR/LeCaRDv2

下载链接

链接失效反馈

官方服务：

资源简介：

LeCaRDv2是由清华大学计算机科学与技术系创建的大型中文法律案例检索数据集，包含800个查询案例和55,192个候选案例，覆盖50种刑事指控。数据集通过多级候选池策略和法律专家标注确保高质量。该数据集旨在推动智能法律系统中的案例检索技术发展，解决现有数据集的限制，如数据量有限、法律相关性定义狭窄和数据采样策略简单等问题。

LeCaRDv2 is a large-scale Chinese legal case retrieval dataset created by the Department of Computer Science and Technology, Tsinghua University. It contains 800 query cases and 55,192 candidate cases, covering 50 types of criminal charges. The dataset ensures high data quality through a multi-level candidate pool strategy and legal expert annotations. It aims to promote the development of case retrieval technologies in intelligent legal systems, addressing the limitations of existing datasets such as limited data volume, narrow definition of legal relevance, and simple data sampling strategies.

提供机构：

清华大学计算机科学与技术系

创建时间：

2023-10-27

搜集汇总

数据集介绍

构建方式

LeCaRDv2数据集的构建方式是通过从中国裁判文书网收集超过430万份刑事案例文档中筛选出800个查询案例和55192个候选案例。为了确保数据集的质量和准确性，所有案例均由多位专注于刑法的法律专家进行标注。构建过程中，首先对案例文档进行预处理，包括将文档分为事实、理由和判决三个部分，并提取相关法律条文。接着，采用查询采样策略，包括常见查询、争议查询和程序查询，以覆盖不同难度和范围的查询。在候选集池化阶段，提出了一种两级池化策略，包括检索池化步骤和排序池化步骤，以识别具有多样特征的潜在案例。最后，基于中国最高人民法院发布的官方文件，设计了更为全面的案例相关性评判标准，包括特征、刑罚和程序三个方面。

特点

LeCaRDv2数据集的特点包括：数据规模庞大，包含55192个候选案例和800个查询案例，覆盖50种罪名，是迄今为止规模最大的中文法律案例检索数据集之一；相关性评判标准全面，考虑了特征、刑罚和程序三个方面，为法律案例检索提供了更全面的视角；候选集池化策略创新，采用两级池化策略，包括检索池化步骤和排序池化步骤，以识别具有多样特征的潜在案例；数据质量高，所有案例均由多位专注于刑法的法律专家进行标注，确保了数据集的准确性和可靠性。

使用方法

LeCaRDv2数据集的使用方法包括：数据集下载，用户可以从THUIR的匿名网站上下载LeCaRDv2数据集；数据预处理，用户需要根据自身需求对数据进行预处理，例如文本分词、去除停用词等；模型训练，用户可以使用数据集中的查询案例和候选案例进行法律案例检索模型的训练；模型评估，用户可以使用数据集中的测试集对训练好的模型进行评估，例如计算召回率等指标；案例相关性标注，用户可以使用数据集中的查询案例和候选案例进行案例相关性标注，以验证模型的性能。

背景与挑战

背景概述

法律案件检索技术在确保司法公正和公平方面发挥着重要作用。然而，现有的中文法律案件检索数据集在数据规模、法律相关性定义的广度以及候选案件池策略的成熟度方面存在局限。为了解决这些问题，清华大学计算机科学与技术系（DCST）的Haitao Li等研究人员于2023年发布了LeCaRDv2数据集。LeCaRDv2包含800个查询和55,192个候选案件，这些候选案件是从430万份刑事案件文档中提取的。LeCaRDv2是目前为止最大的中文法律案件检索数据集之一，涵盖了广泛的刑事指控。此外，该数据集通过考虑三个关键方面——特征、处罚和程序，丰富了现有的相关性标准。为了确保数据集的质量，所有案件均由多名精通刑法的法律专家进行了标注。LeCaRDv2的发布为法律案件检索领域的研究提供了重要的资源和参考。

当前挑战

尽管LeCaRDv2在规模和相关性标准方面取得了显著进展，但仍然面临着一些挑战。首先，数据集的构建需要解决领域问题，即如何从大规模的法律文本文档中有效地检索相关案件。其次，构建过程中需要克服的挑战包括如何构建一个全面的候选案件池，以及如何设计高效且准确的检索模型。为了应对这些挑战，LeCaRDv2提出了一个两级的候选案件池策略，包括检索池和排名池，以有效地识别每个查询案件的潜在候选案件。实验结果表明，LeCaRDv2是一个具有挑战性的检索任务，现有的预训练语言模型在法律文档上的表现不如在一般领域。因此，需要进一步努力来促进法律案件检索技术的发展。

常用场景

经典使用场景

LeCaRDv2 数据集主要用于法律案例检索的研究与开发。它提供了一个大规模的中文法律案例数据集，包含 800 个查询案例和 55,192 个候选案例，覆盖了 50 种不同的罪名。这个数据集的规模和多样性使其成为研究和开发法律案例检索模型的重要基准。LeCaRDv2 的使用场景包括但不限于：法律案例检索模型的训练与评估、法律信息检索系统的开发与优化、法律文本相似度计算等。

解决学术问题

LeCaRDv2 数据集解决了现有法律案例检索数据集中存在的三个主要问题：数据规模有限、法律相关性定义狭窄、候选案例池策略简单。LeCaRDv2 通过提供大规模的数据集、更全面的案件相关性标准以及两级的候选案例池策略，为法律案例检索研究提供了新的思路和方向。

衍生相关工作

LeCaRDv2 数据集的发布，促进了法律案例检索领域的研究与发展。基于 LeCaRDv2，研究人员可以开发出更准确、更高效的法律案例检索模型，为法律工作者提供更好的工具和服务。此外，LeCaRDv2 还可以衍生出更多相关的经典工作，如法律文本分类、法律知识图谱构建等，推动法律人工智能领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集