LegalBench-RAG

Name: LegalBench-RAG
Creator: 零熵（ZeroEntropy）
Published: 2024-08-20 02:30:18
License: 暂无描述

arXiv2024-08-20 更新2024-08-22 收录

下载链接：

https://github.com/zeroentropy-cc/legalbenchrag

下载链接

链接失效反馈

官方服务：

资源简介：

LegalBench-RAG是由零熵（ZeroEntropy）创建的一个专门用于评估法律领域中检索增强生成（RAG）系统检索步骤的基准数据集。该数据集包含6,858个查询-答案对，覆盖了超过7900万字符的法律文档，全部由法律专家人工标注。数据集的创建过程涉及从原始法律语料库中追溯LegalBench查询的上下文，确保了检索的精确性和相关性。LegalBench-RAG主要用于提高法律领域RAG系统的准确性和性能，特别是在处理法律文档的独特结构和术语时。

LegalBench-RAG is a benchmark dataset developed specifically for evaluating the retrieval stage of retrieval-augmented generation (RAG) systems in the legal domain, created by ZeroEntropy. This dataset comprises 6,858 query-answer pairs, covering legal documents with a total of over 79 million characters, all manually annotated by legal experts. The creation process of the dataset involves tracing the contextual information of LegalBench queries from the original legal corpus, ensuring the precision and relevance of the retrieval process. LegalBench-RAG is primarily intended to enhance the accuracy and performance of RAG systems in the legal domain, particularly when handling the unique structural characteristics and specialized terminology inherent in legal documents.

提供机构：

零熵（ZeroEntropy）

创建时间：

2024-08-20

搜集汇总

数据集介绍

构建方式

LegalBench-RAG 数据集的构建方式是通过对现有的 LegalBench 数据集进行逆向工程，将查询中的文本段重新定位到原始法律语料库中的位置。该数据集由四个源数据集构成，包括隐私问题问答（PrivacyQA）、合同理解 Atticus 数据集（CUAD）、并购理解数据集（MAUD）和合同自然语言推理（ContractNLI）。每个源数据集都经过预处理，创建了文档的唯一描述和注释类别到疑问句的映射。查询的构建采用了“考虑（文档描述）；（疑问句）”的格式，其中每个查询都来源于源数据集中的单个注释。每个查询都与一个或多个相关的文本片段相关联，这些片段是从语料库的不同文档中提取的，并提供了文件路径、引文和精确的字符索引。

特点

LegalBench-RAG 数据集的特点在于其精确检索的强调，通过从法律文件中提取最小、高度相关的文本段来实现。该数据集包含 6,858 个查询-答案对，覆盖了 79M 个字符的语料库，完全由法律专家人工标注。数据集的构建过程确保了每个查询都能精确地映射到原始语料库中的相关文本片段，这对于评估检索模型的性能至关重要。此外，LegalBench-RAG 还提供了一个轻量级的版本 LegalBench-RAG-mini，以便于快速迭代和实验。

使用方法

使用 LegalBench-RAG 数据集时，研究人员和公司可以评估检索增强生成（RAG）系统在法律领域的检索步骤的质量。该数据集提供了一个严格的框架来评估检索机制是否能准确地定位到精确的法律引用。通过实验，可以研究不同的分块策略和后处理方法对检索性能的影响。LegalBench-RAG-mini 版本则适合于快速迭代和实验，特别是对于那些需要快速评估和调整 RAG 系统的开发者。用户可以通过数据集中的查询和相应的文本片段来测试和评估他们的检索模型的精度和召回率。

背景与挑战

背景概述

随着人工智能技术在法律领域的广泛应用，检索增强生成（RAG）系统因其结合了检索机制和生成式大型语言模型（LLM）而展现出巨大的潜力。现有的基准测试，如LegalBench，评估了LLM在法律领域的生成能力，但缺乏专门针对RAG系统中检索组件的评估。为了填补这一空白，Nicholas Pipitone和Ghita Houir Alami等人于2024年创建了LegalBench-RAG，这是第一个专门设计用于评估法律领域RAG流程中检索步骤的基准测试。LegalBench-RAG强调精确检索，专注于从法律文件中提取最小、高度相关的文本片段。与检索文档ID或大量不精确的文本块相比，这种方法更受青睐，因为后者可能会超过上下文窗口的限制，导致处理成本增加、延迟升高，并使LLM忘记或虚构信息。此外，精确的结果允许LLM为最终用户提供引用。LegalBench-RAG基准测试通过将LegalBench查询中使用的上下文追溯回法律语料库中的原始位置来构建，最终形成了包含超过79M字符语料库的6,858个查询-答案对数据集，该数据集完全由法律专家人工注释。同时，LegalBench-RAG还引入了LegalBench-RAGmini，这是一个轻量级版本，用于快速迭代和实验。LegalBench-RAG为专注于提高RAG系统在法律领域准确性和性能的公司和研究人员提供了一个关键工具。

当前挑战

LegalBench-RAG面临的挑战包括：1)在法律领域评估检索质量，现有的基准测试通常缺乏对法律文件中特定细节的评估；2)构建过程中遇到的挑战，如精确检索法律文本片段的难度，以及如何将查询与法律语料库中的精确位置进行映射；3)缺乏对多文档推理能力的评估，LegalBench-RAG仅评估了检索系统能够选择正确文档和文档内正确文本片段的能力，而没有评估跨多个文档进行推理的能力。

常用场景

经典使用场景

LegalBench-RAG数据集主要用于评估在法律领域中的检索增强生成（RAG）系统的检索步骤。该数据集强调精确检索，通过从法律文件中提取最小、高度相关的文本片段来构建，这些片段比检索文档ID或大量不精确的块更为理想，因为后者可能超出上下文窗口限制。LegalBench-RAG提供了评估RAG系统中检索机制精确性的严格框架，为在法律领域增强RAG系统的准确性和性能提供了关键工具。

衍生相关工作

LegalBench-RAG的推出推动了法律领域RAG系统的研究和发展。它为研究人员和公司提供了一个标准化的评估框架，用于比较和迭代现有的RAG技术。在此基础上，衍生出了一系列相关研究，包括对检索增强生成系统的评估、对检索算法的改进以及对法律文本理解的深入研究。此外，LegalBench-RAG还启发了其他领域基准的创建，如医疗、金融等，以评估这些领域中RAG系统的性能。

数据集最近研究