LeCaRDv2|法律案例检索数据集|智能法律系统数据集

arXiv2023-10-27 更新2024-06-21 收录

法律案例检索

智能法律系统

下载链接：

https://github.com/THUIR/LeCaRDv2

下载链接

链接失效反馈

资源简介：

LeCaRDv2是由清华大学计算机科学与技术系创建的大型中文法律案例检索数据集，包含800个查询案例和55,192个候选案例，覆盖50种刑事指控。数据集通过多级候选池策略和法律专家标注确保高质量。该数据集旨在推动智能法律系统中的案例检索技术发展，解决现有数据集的限制，如数据量有限、法律相关性定义狭窄和数据采样策略简单等问题。

提供机构：

清华大学计算机科学与技术系

创建时间：

2023-10-27

AI搜集汇总

数据集介绍

构建方式

LeCaRDv2数据集的构建方式是通过从中国裁判文书网收集超过430万份刑事案例文档中筛选出800个查询案例和55192个候选案例。为了确保数据集的质量和准确性，所有案例均由多位专注于刑法的法律专家进行标注。构建过程中，首先对案例文档进行预处理，包括将文档分为事实、理由和判决三个部分，并提取相关法律条文。接着，采用查询采样策略，包括常见查询、争议查询和程序查询，以覆盖不同难度和范围的查询。在候选集池化阶段，提出了一种两级池化策略，包括检索池化步骤和排序池化步骤，以识别具有多样特征的潜在案例。最后，基于中国最高人民法院发布的官方文件，设计了更为全面的案例相关性评判标准，包括特征、刑罚和程序三个方面。

特点

LeCaRDv2数据集的特点包括：数据规模庞大，包含55192个候选案例和800个查询案例，覆盖50种罪名，是迄今为止规模最大的中文法律案例检索数据集之一；相关性评判标准全面，考虑了特征、刑罚和程序三个方面，为法律案例检索提供了更全面的视角；候选集池化策略创新，采用两级池化策略，包括检索池化步骤和排序池化步骤，以识别具有多样特征的潜在案例；数据质量高，所有案例均由多位专注于刑法的法律专家进行标注，确保了数据集的准确性和可靠性。

使用方法

LeCaRDv2数据集的使用方法包括：数据集下载，用户可以从THUIR的匿名网站上下载LeCaRDv2数据集；数据预处理，用户需要根据自身需求对数据进行预处理，例如文本分词、去除停用词等；模型训练，用户可以使用数据集中的查询案例和候选案例进行法律案例检索模型的训练；模型评估，用户可以使用数据集中的测试集对训练好的模型进行评估，例如计算召回率等指标；案例相关性标注，用户可以使用数据集中的查询案例和候选案例进行案例相关性标注，以验证模型的性能。

背景与挑战

背景概述

法律案件检索技术在确保司法公正和公平方面发挥着重要作用。然而，现有的中文法律案件检索数据集在数据规模、法律相关性定义的广度以及候选案件池策略的成熟度方面存在局限。为了解决这些问题，清华大学计算机科学与技术系（DCST）的Haitao Li等研究人员于2023年发布了LeCaRDv2数据集。LeCaRDv2包含800个查询和55,192个候选案件，这些候选案件是从430万份刑事案件文档中提取的。LeCaRDv2是目前为止最大的中文法律案件检索数据集之一，涵盖了广泛的刑事指控。此外，该数据集通过考虑三个关键方面——特征、处罚和程序，丰富了现有的相关性标准。为了确保数据集的质量，所有案件均由多名精通刑法的法律专家进行了标注。LeCaRDv2的发布为法律案件检索领域的研究提供了重要的资源和参考。

当前挑战

尽管LeCaRDv2在规模和相关性标准方面取得了显著进展，但仍然面临着一些挑战。首先，数据集的构建需要解决领域问题，即如何从大规模的法律文本文档中有效地检索相关案件。其次，构建过程中需要克服的挑战包括如何构建一个全面的候选案件池，以及如何设计高效且准确的检索模型。为了应对这些挑战，LeCaRDv2提出了一个两级的候选案件池策略，包括检索池和排名池，以有效地识别每个查询案件的潜在候选案件。实验结果表明，LeCaRDv2是一个具有挑战性的检索任务，现有的预训练语言模型在法律文档上的表现不如在一般领域。因此，需要进一步努力来促进法律案件检索技术的发展。

常用场景

经典使用场景

LeCaRDv2 数据集主要用于法律案例检索的研究与开发。它提供了一个大规模的中文法律案例数据集，包含 800 个查询案例和 55,192 个候选案例，覆盖了 50 种不同的罪名。这个数据集的规模和多样性使其成为研究和开发法律案例检索模型的重要基准。LeCaRDv2 的使用场景包括但不限于：法律案例检索模型的训练与评估、法律信息检索系统的开发与优化、法律文本相似度计算等。

解决学术问题

LeCaRDv2 数据集解决了现有法律案例检索数据集中存在的三个主要问题：数据规模有限、法律相关性定义狭窄、候选案例池策略简单。LeCaRDv2 通过提供大规模的数据集、更全面的案件相关性标准以及两级的候选案例池策略，为法律案例检索研究提供了新的思路和方向。

衍生相关工作

LeCaRDv2 数据集的发布，促进了法律案例检索领域的研究与发展。基于 LeCaRDv2，研究人员可以开发出更准确、更高效的法律案例检索模型，为法律工作者提供更好的工具和服务。此外，LeCaRDv2 还可以衍生出更多相关的经典工作，如法律文本分类、法律知识图谱构建等，推动法律人工智能领域的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话，其中包含两个字段：用户发言和助手回应，均为字符串类型。训练集大小为38646852字节，共有44096条对话记录。

huggingface 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录