CLERC (Case Law Evaluation and Retrieval Corpus)
收藏arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://github.com/bohanhou14/CLERC, https://huggingface.co/datasets/jhu-clsp/CLERC
下载链接
链接失效反馈官方服务:
资源简介:
CLERC是由约翰斯·霍普金斯大学等机构创建的法律案例评估和检索数据集,旨在支持信息检索和检索增强生成任务。该数据集包含184万份联邦案例文档,平均每份文档有11.54个引用。数据来源于哈佛法律学院的Caselaw Access Project,经过处理以适应法律IR和RAG任务。CLERC不仅帮助法律专业人士快速检索相关案例,还支持生成支持推理目标的法律分析文本。该数据集的应用领域主要集中在法律文档撰写和法律案例分析,旨在提高法律工作的效率和质量。
CLERC is a legal case evaluation and retrieval dataset developed by institutions including Johns Hopkins University, designed to support information retrieval and retrieval-augmented generation (RAG) tasks. This dataset comprises 1.84 million federal case documents, with an average of 11.54 citations per document. The data is sourced from the Caselaw Access Project at Harvard Law School, and has been preprocessed to accommodate legal information retrieval (IR) and RAG tasks. CLERC not only enables legal professionals to rapidly retrieve relevant case documents, but also facilitates the generation of legal analytical texts tailored to support reasoning objectives. Its primary application domains cover legal document drafting and legal case analysis, with the core objective of enhancing the efficiency and quality of legal practice.
提供机构:
约翰斯·霍普金斯大学
创建时间:
2024-06-25
搜集汇总
数据集介绍

构建方式
CLERC数据集是通过与法律专业人士合作,基于大规模开源法律语料库构建而成的。该数据集旨在支持信息检索(IR)和检索增强生成(RAG)两项核心任务。信息检索任务要求模型能够根据给定的法律分析找到相应的引用,而检索增强生成任务则要求模型将这些引用的文本(以及之前的上下文)汇编成一个连贯的分析,以支持推理目标。为了构建这一数据集,研究人员从哈佛法学院提供的Caselaw Access Project(CAP)中获取了超过184万份联邦案件文件,并对这些文件进行了预处理,包括合并不同类型的意见(如多数、反对、同意意见),并去除换行符。为了准备检索任务,他们将这些文件分割成350个单词的块,并使用175个单词的滑动窗口。此外,他们还构建了一个开源的管道,用于将CAP转换为大规模、高质量的训练和评估模型在法律IR和RAG任务上的数据集。
特点
CLERC数据集的特点在于其规模庞大,包含了丰富的法律案例,以及针对法律领域任务的设计。该数据集包含了1.84M份文档,超过20.7M个引用,23.7M个检索段落和6k个生成段落。为了模拟律师撰写法律分析时寻找案例文档以支持文本的场景,他们定义了一个查询块,其中包含了被移除的中央引用的文本。此外,CLERC数据集还提供了两种数据视图,即仅移除中央引用和移除所有引用,以及两种类型的查询,即直接引用和间接引用。这些特点使得CLERC数据集成为评估和训练法律信息检索和生成模型的重要资源。
使用方法
使用CLERC数据集时,研究者可以将其分为三个子集:CLERC/doc、CLERC/passage和CLERC/generation。CLERC/doc包含了整个案件文档,CLERC/passage包含了分割后的文档块,而CLERC/generation则用于评估模型生成法律分析的能力。为了评估信息检索任务,研究者使用召回率和nDCG作为指标,并测试了多种检索模型,包括BM25、ColBERTv2、JinaColBERT和Bi-Encoders。对于检索增强生成任务,研究者使用了ROUGE、BARTScore、引用召回率(CR)、引用精确率(CP)和引用假正率(CFP)作为指标,并测试了多个LLMs,包括Mistral-7B、GPT-4o、Llama-3和Gemma-1.1-7b。研究者发现,在提供引用案例的文本的情况下,模型的性能得到了显著提升,特别是在引用召回率和引用精确率方面。然而,即使是性能最好的模型也存在幻觉问题,这表明在法律领域应用LLMs时需要谨慎。
背景与挑战
背景概述
在法律领域,撰写依赖于先前案例判决引用的法律分析是一项核心任务。然而,为律师提供此类文档撰写辅助的智能系统设计起来极具挑战性。此类系统需要帮助定位、总结并推理出关键先例,以发挥其作用。为了实现这些系统的开发,研究人员与法律专业人士合作,将一个大型开源法律语料库转换为一个数据集,支持两个重要的基础任务:信息检索(IR)和检索增强生成(RAG)。该数据集CLERC(案例法评估与检索语料库)旨在训练和评估模型在以下方面的能力:(1)为给定的法律分析找到相应的引用;(2)将这些引用的文本(以及之前的上下文)汇编成一个连贯的分析,以支持推理目标。该数据集由哈佛法学院的法律案例访问项目(CAP)提供的数字化案例法构建而成,包含超过184万个联邦案件文件,平均每个文件有11.54个引用。CLERC数据集为法律信息检索和生成语言模型的发展提供了宝贵的资源,并促进了法律专业人士的协作AI系统的开发。
当前挑战
CLERC数据集面临的挑战包括:(1)案例检索的准确性:现有的检索模型在检索相关案例时仍然面临困难,特别是在处理长文本和区分相关与非相关引用方面;(2)法律分析生成的质量:虽然某些模型在引用指标上得分较高,但它们经常产生幻觉,即生成的内容与实际情况不符;(3)评估指标的局限性:当前的引用指标(如引用召回率、引用精确率和引用假阳性率)并不能完全反映生成的法律分析的质量,需要开发更精细的评估指标;(4)领域迁移问题:由于法律文本的特殊性,现有的模型在处理法律文本时表现不佳,需要进行针对法律领域的微调。
常用场景
经典使用场景
在法律领域,律师需要撰写依赖于相关先例引用的法律分析。CLERC数据集正是为支持此类任务而构建的,它包含了两个重要的基础任务:信息检索(IR)和检索增强生成(RAG)。该数据集旨在训练和评估模型,使其能够找到给定法律分析片段的对应引用,并将这些引用的文本(以及之前的上下文)编译成一个连贯的分析,以支持推理目标。通过这种方式,CLERC数据集成为法律专业人士和AI研究人员的重要资源,有助于提高法律分析和先例检索的效率。
解决学术问题
CLERC数据集解决了法律领域中的一个关键问题,即如何有效地检索和分析大量的法律案例。在此之前,法律专业人士需要投入大量时间和精力来查找和整合相关案例。CLERC数据集通过提供高质量的训练数据,使得模型能够更好地理解和生成法律文本,从而提高了法律分析和先例检索的准确性。此外,CLERC数据集还揭示了当前方法在法律案例检索和生成中的局限性,例如IR模型难以检索相关文档,而LLM模型则容易产生幻觉。这为未来的研究提供了方向,即如何改进模型以更好地适应法律文本的特点。
衍生相关工作
CLERC数据集的发布,推动了法律领域人工智能研究的发展。基于CLERC数据集,研究人员可以开发和评估新的模型,以提高法律分析和先例检索的准确性。例如,CLERC数据集可以用于训练和评估信息检索模型,以帮助律师更快地找到相关案例。此外,CLERC数据集还可以用于训练和评估检索增强生成模型,以帮助律师生成连贯的法律分析。此外,CLERC数据集还为法律教育提供了新的可能性,例如通过分析CLERC数据集中的案例,学生可以学习如何撰写法律分析和先例检索。总之,CLERC数据集为法律领域的人工智能研究提供了重要的资源,有助于推动法律分析和先例检索技术的发展。
以上内容由遇见数据集搜集并总结生成



