CLERC (Case Law Evaluation and Retrieval Corpus)

Name: CLERC (Case Law Evaluation and Retrieval Corpus)
Creator: 约翰斯·霍普金斯大学、巴黎综合理工学院、马里兰大学法学院
Published: 2024-06-27 23:55:57
License: 暂无描述

arXiv2024-06-27 更新2024-06-29 收录

下载链接：

https://github.com/bohanhou14/CLERC

下载链接

链接失效反馈

官方服务：

资源简介：

CLERC（Case Law Evaluation and Retrieval Corpus）是一个专为法律案例检索和生成分析设计的数据集，由约翰斯·霍普金斯大学等机构基于哈佛法学院的Caselaw Access Project构建。该数据集包含超过184万份联邦案例文档，平均每份文档有11.54个引文。CLERC数据集的创建旨在支持法律信息检索和生成任务，通过提供高质量的训练数据，帮助法律专业人士更有效地检索相关案例并生成法律分析。该数据集的应用领域主要集中在法律智能系统的开发，旨在提高法律文档处理的效率和准确性。

CLERC (Case Law Evaluation and Retrieval Corpus) is a dataset specifically designed for legal case retrieval and generative analysis, constructed by institutions such as Johns Hopkins University based on Harvard Law School’s Caselaw Access Project. This dataset contains over 1.84 million federal case documents, with an average of 11.54 citations per document. The creation of this dataset aims to support legal information retrieval and generative tasks, providing high-quality training data to help legal professionals more efficiently retrieve relevant cases and generate legal analyses. Its main application fields focus on the development of legal intelligent systems, with the goal of enhancing the efficiency and accuracy of legal document processing.

提供机构：

约翰斯·霍普金斯大学、巴黎综合理工学院、马里兰大学法学院

创建时间：

2024-06-25

原始信息汇总

CLERC 数据集概述

简介

CLERC 是一个用于法律案件检索和检索增强分析生成的数据集，基于 Caselaw Access Project (CAP) 构建。该数据集旨在支持法律信息检索（IR）和检索增强生成（RAG）任务的模型训练和评估。

贡献

通过与法律专业人士合作，CLERC 提供了一种平衡法律专业人士需求和计算可行性的法律案件检索和生成任务的表述。
构建了一个开源管道，将 CAP 转换为适用于法律 IR 和 RAG 任务的大规模、高质量数据集。
对长上下文案件检索和检索增强法律分析生成进行了全面评估，揭示了信息检索模型在检索相关文档方面的困难，以及大型语言模型（LLMs）经常产生幻觉的问题。

数据集子集

CLERC 数据集分为两个主要子集：检索和生成。

检索子集

安装步骤

创建 Python 环境：python -m venv clerc-ret
激活环境：source clerc-ret/bin/activate
安装依赖：pip install -r requirements

处理流程

process_raw：将 CAP 的 .jsonl.xz 文件处理为 .tsv 语料库（CLERC/doc）。
build_collections：使用滑动窗口将 CLERC/doc 分块为段落集合（CLERC/passage）。
build_queries：将 CLERC/doc 转换为查询，并根据直接/间接、单移除/全移除进行分类。
filter_queries：从查询中识别并提取中心引用句子，使用 eyecite 支持。
build_qrels：将查询标准化为 MSMarco 格式，并提供用于评估查询的相关性文件（文档级和段落级）。
build_pos_train_collection_rerank 和 build_rerank_triples：用于构建段落级三元组，详情见 Building-Passage-level-Triples。

生成子集

详情请参考论文和 README in the generation subdirectory。

引用

@article{abe2024clerc, title={CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation}, author={Abe Bohan Hou and Orion Weller and Guanghui Qin and Eugene Yang and Dawn Lawrie and Nils Holzenberger and Andrew Blair-Stanek and Benjamin Van Durme}, journal={ArXiv}, year={2024}, url={https://arxiv.org/pdf/2406.17186} }

搜集汇总

数据集介绍

构建方式

CLERC数据集的构建基于哈佛法学院提供的Caselaw Access Project (CAP)中的数字化案例法文档。该数据集通过将CAP中的联邦案例文档进行预处理，包括去除换行符、将文档分割为350词的段落，并生成用于检索和生成的子集。CLERC/doc包含完整的案例文档，CLERC/passage用于检索任务，CLERC/generation则用于生成任务。数据集的构建过程还包括与法律专业人士合作，确保任务定义符合法律实践需求。

特点

CLERC数据集的特点在于其规模庞大且任务多样。它包含184万份文档，总计2070万次引用，2370万条检索段落和6000条生成段落。数据集不仅支持信息检索任务，还支持基于检索的生成任务，能够评估模型在生成法律分析时的表现。此外，CLERC还提供了直接和间接查询的分类，以及两种数据视图（单引用移除和全引用移除），使得数据集能够更全面地评估模型在不同情境下的表现。

使用方法

CLERC数据集的使用方法主要包括两个方面：信息检索和生成任务。在信息检索任务中，模型需要根据给定的查询段落，检索出相关的案例文档或段落。查询段落通常是从案例文档中提取的，且中间的引用被移除。在生成任务中，模型需要根据前文和引用的案例，生成新的法律分析段落。生成任务的目标是评估模型在生成法律分析时的准确性和连贯性。数据集的使用可以通过公开的代码和数据链接进行，支持研究人员进行模型训练和评估。

背景与挑战

背景概述

CLERC（Case Law Evaluation and Retrieval Corpus）是一个专门为法律案例检索和检索增强分析生成任务设计的数据集，旨在帮助法律从业者更高效地撰写法律分析文档。该数据集由约翰霍普金斯大学、巴黎电信学院和马里兰大学的研究团队于2024年构建，基于哈佛法学院提供的Caselaw Access Project（CAP）中的180万份联邦案例文档。CLERC的核心研究问题是通过信息检索（IR）和检索增强生成（RAG）技术，帮助法律从业者快速找到相关案例并生成支持法律推理的分析文本。该数据集的出现为法律智能系统的开发提供了重要的数据支持，推动了法律领域与自然语言处理技术的结合。

当前挑战

CLERC数据集面临的挑战主要体现在两个方面。首先，法律案例检索任务本身具有复杂性，案例文档通常包含大量法律术语和复杂的上下文结构，导致现有检索模型在长文本检索中的表现不佳，尤其是在处理间接引用和长查询时，模型容易受到干扰词的干扰，检索精度较低。其次，检索增强生成任务中，模型在生成法律分析时容易出现幻觉问题，即生成的内容与引用案例不符，导致生成的文本缺乏事实依据。此外，构建CLERC数据集时，研究人员需要处理大量的案例文档，确保数据的质量和一致性，同时还要解决OCR错误和数据格式不一致等问题。这些挑战使得CLERC成为一个极具研究价值的法律领域数据集。

常用场景

经典使用场景

CLERC数据集主要用于法律案例检索和检索增强的生成任务。在法律领域，律师和法官经常需要从大量的案例中检索出相关的先例，并基于这些先例生成法律分析。CLERC通过提供大量的联邦案例文档，支持信息检索（IR）和检索增强生成（RAG）任务，帮助法律从业者更高效地完成这些任务。

实际应用

CLERC数据集在实际应用中具有广泛的前景。法律从业者可以利用该数据集训练的法律智能系统，快速检索相关案例并生成法律分析，从而大幅提高工作效率。此外，CLERC还可以用于法律教育，帮助学生和研究人员更好地理解法律案例的检索和分析过程。

衍生相关工作

CLERC数据集的发布催生了一系列相关研究，特别是在法律信息检索和生成领域。基于CLERC，研究人员开发了多种先进的检索模型和生成模型，如ColBERTv2和RankLlama。这些模型在CLERC上的表现得到了显著提升，进一步推动了法律智能系统的发展。此外，CLERC还为其他法律数据集的建设提供了参考，促进了法律信息处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集