LEAD

Hugging Face2024-10-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/JamesChengGao/LEAD

下载链接

链接失效反馈

官方服务：

资源简介：

LEAD数据集是一个用于法律案例检索的大规模数据集，通过自动生成合成查询-候选对构建，比现有数据集大数百倍。每个条目包含案件的详细描述、简要总结、相关法律条文、判决长度以及相似案例的描述。数据生成过程包括使用大规模生成语言模型提取关键事实、匿名化处理以及基于法律条文和判决长度的相似案例匹配。

The LEAD dataset is a large-scale dataset for legal case retrieval, constructed by automatically generating synthetic query-candidate pairs, and it is hundreds of times larger than existing datasets. Each entry contains the detailed case description, brief summary, relevant legal provisions, judgment length, and descriptions of similar cases. The data generation process includes extracting key facts using large-scale generative language models, anonymization processing, and similar case matching based on legal provisions and judgment length.

创建时间：

2024-09-30

原始信息汇总

LEAD 数据集概述

数据集简介

LEAD 数据集是一个用于法律案例检索（LCR）的大型数据集，旨在解决现有数据集规模不足和查询方式不符合实际场景的问题。通过自动化方法构建合成查询-候选对，LEAD 数据集比现有数据集大数百倍。

数据生成方法

关键事实提取：使用大规模生成语言模型从案例候选中提取关键事实，并省略实体（如姓名和地点）。
查询生成：基于匿名化的关键事实，生成简短且连贯的案例描述作为搜索查询。
数据增强：采用知识驱动的数据增强策略，为每个查询选择最相似的案例作为增强的正样本候选。

数据集结构

数据集文件名中的 0, 30, 65, 和 100 表示查询-关键对属于同一案例的比例。详细信息请参阅论文的消融部分。

数据描述

SS：案例的详细描述，包括事件、被告行为和控方主张。
query：SS 的简短摘要，用于模型训练的查询-关键对。
key：如果查询和关键对来自同一案例，则与 SS 相同；否则与 Similar Case 相同。
AJAY：每个数字代表一个指控，对应关系可在 LEAD_data/mapping_v2.json 中找到。
main article：与案例相关的主要法律条文列表。
other article：与案例相关的辅助法律条文列表。
sentence：对被告的判决长度。
similar case：与当前案例相似的详细描述。

关键事件提取

使用大规模生成语言模型生成案例的简短摘要。具体实现请参考 raw_data/process_data_LLM.py。

匿名化

使用 DeepTHULAC 进一步消除案例中与法律无关的实体。具体实现请参考 raw_data/deepthulac_cut.py 和 raw_data/deepthulac_anonymization.py。

相似案例匹配

基于主要法律条文、辅助法律条文、判决和指控，为每个案例搜索相似案例。具体方法包括：

搜索具有相同指控和主要法律条文的案例。
在这些案例中，找到辅助法律条文最相似的案例（使用编辑距离进行比较）。
从剩余案例中，找到判决最接近的案例，如果存在多个，则随机选择一个。

搜集汇总

数据集介绍

构建方式

LEAD数据集的构建采用了自动化方法，通过大规模生成语言模型从法律案例中提取关键事实，并省略实体信息如姓名和地点。基于匿名化的关键事实，模型生成简洁连贯的案例描述作为搜索查询。此外，为了增强数据的多样性，采用知识驱动的数据增强策略，从整个语料库中选择与查询在罪名、相关法律条款和刑期方面最相似的案例作为增强的正样本。

特点

LEAD数据集是目前最大的法律案例检索数据集，规模远超现有数据集。其特点在于生成的查询简短且仅包含少数句子，同时通过知识驱动的数据增强策略提高了数据的多样性。数据集中的每个案例都包含详细的描述、查询、关键信息、相关法律条款、刑期及相似案例的描述，确保了数据的丰富性和实用性。

使用方法

使用LEAD数据集时，首先需通过大规模生成语言模型从原始法律数据中生成简要案例摘要，并利用DeepTHULAC工具进行匿名化处理。随后，根据主要法律条款、辅助法律条款、刑期和罪名等信息，为每个案例匹配最相似的案例。具体实现可参考提供的代码示例和提示文件，用户可根据需求调整内容。

背景与挑战

背景概述

LEAD数据集由清华大学自然语言处理实验室于2023年推出，旨在解决法律案例检索领域中的关键问题。传统方法主要依赖于冗长的查询进行案例到案例的检索，这与实际应用场景存在较大差距。此外，现有数据集的规模有限，通常仅包含数百条查询，难以满足现代数据密集型神经模型的训练需求。LEAD通过自动化方法构建了迄今为止最大的法律案例检索数据集，其规模是现有数据集的数百倍。该数据集的核心研究问题在于如何通过高质量的合成查询-候选对来增强法律案例检索的准确性和效率。LEAD的推出为法律信息检索领域提供了重要的数据支持，推动了相关技术的发展。

当前挑战

LEAD数据集在构建过程中面临多重挑战。首先，法律案例检索领域的核心问题在于如何从复杂的法律文本中提取关键信息，并生成简洁且具有代表性的查询。这要求模型不仅能够理解法律文本的语义，还需具备高度的概括能力。其次，数据集的构建过程中，如何确保生成的查询-候选对的质量和多样性是一个关键挑战。为此，研究团队采用了基于大规模生成语言模型的关键事实提取方法，并结合知识驱动的数据增强策略，以提高数据的多样性和检索的鲁棒性。此外，法律文本中涉及大量敏感信息，如何在数据生成过程中进行有效的匿名化处理，以避免泄露个人隐私，也是数据集构建中的一大难题。

常用场景

经典使用场景

LEAD数据集在法学信息检索领域具有广泛的应用，特别是在法律案例检索系统中。通过自动化生成高质量的查询-候选对，LEAD数据集能够有效训练和评估复杂的神经网络模型，提升案例检索的准确性和效率。其独特的匿名化处理和知识驱动的数据增强策略，使得模型能够在面对不完全一致的关键事实时，依然能够检索到相关案例。

实际应用

在实际应用中，LEAD数据集被广泛应用于法律智能助手、司法决策支持系统等领域。通过其生成的简洁查询和高质量候选对，法律从业者能够快速检索到相关案例，提升工作效率。此外，LEAD数据集的知识驱动数据增强策略，使得系统在面对复杂法律问题时，能够提供更为精准的检索结果，助力司法公正和效率。

衍生相关工作

LEAD数据集的推出，催生了一系列相关研究工作。例如，基于LEAD数据集的法律案例检索模型优化、法律文本生成技术改进等。这些研究不仅推动了法学信息检索领域的发展，还为法律智能系统的实际应用提供了有力支持。此外，LEAD数据集的开源特性，也促进了学术界和工业界的广泛合作，共同推动法律科技的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集