five

LegalBench-RAG|法律领域数据集|RAG系统数据集

收藏
arXiv2024-08-20 更新2024-08-22 收录
法律领域
RAG系统
下载链接:
https://github.com/zeroentropy-cc/legalbenchrag
下载链接
链接失效反馈
资源简介:
LegalBench-RAG是由零熵(ZeroEntropy)创建的一个专门用于评估法律领域中检索增强生成(RAG)系统检索步骤的基准数据集。该数据集包含6,858个查询-答案对,覆盖了超过7900万字符的法律文档,全部由法律专家人工标注。数据集的创建过程涉及从原始法律语料库中追溯LegalBench查询的上下文,确保了检索的精确性和相关性。LegalBench-RAG主要用于提高法律领域RAG系统的准确性和性能,特别是在处理法律文档的独特结构和术语时。
提供机构:
零熵(ZeroEntropy)
创建时间:
2024-08-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
LegalBench-RAG 数据集的构建方式是通过对现有的 LegalBench 数据集进行逆向工程,将查询中的文本段重新定位到原始法律语料库中的位置。该数据集由四个源数据集构成,包括隐私问题问答(PrivacyQA)、合同理解 Atticus 数据集(CUAD)、并购理解数据集(MAUD)和合同自然语言推理(ContractNLI)。每个源数据集都经过预处理,创建了文档的唯一描述和注释类别到疑问句的映射。查询的构建采用了“考虑(文档描述);(疑问句)”的格式,其中每个查询都来源于源数据集中的单个注释。每个查询都与一个或多个相关的文本片段相关联,这些片段是从语料库的不同文档中提取的,并提供了文件路径、引文和精确的字符索引。
特点
LegalBench-RAG 数据集的特点在于其精确检索的强调,通过从法律文件中提取最小、高度相关的文本段来实现。该数据集包含 6,858 个查询-答案对,覆盖了 79M 个字符的语料库,完全由法律专家人工标注。数据集的构建过程确保了每个查询都能精确地映射到原始语料库中的相关文本片段,这对于评估检索模型的性能至关重要。此外,LegalBench-RAG 还提供了一个轻量级的版本 LegalBench-RAG-mini,以便于快速迭代和实验。
使用方法
使用 LegalBench-RAG 数据集时,研究人员和公司可以评估检索增强生成(RAG)系统在法律领域的检索步骤的质量。该数据集提供了一个严格的框架来评估检索机制是否能准确地定位到精确的法律引用。通过实验,可以研究不同的分块策略和后处理方法对检索性能的影响。LegalBench-RAG-mini 版本则适合于快速迭代和实验,特别是对于那些需要快速评估和调整 RAG 系统的开发者。用户可以通过数据集中的查询和相应的文本片段来测试和评估他们的检索模型的精度和召回率。
背景与挑战
背景概述
随着人工智能技术在法律领域的广泛应用,检索增强生成(RAG)系统因其结合了检索机制和生成式大型语言模型(LLM)而展现出巨大的潜力。现有的基准测试,如LegalBench,评估了LLM在法律领域的生成能力,但缺乏专门针对RAG系统中检索组件的评估。为了填补这一空白,Nicholas Pipitone和Ghita Houir Alami等人于2024年创建了LegalBench-RAG,这是第一个专门设计用于评估法律领域RAG流程中检索步骤的基准测试。LegalBench-RAG强调精确检索,专注于从法律文件中提取最小、高度相关的文本片段。与检索文档ID或大量不精确的文本块相比,这种方法更受青睐,因为后者可能会超过上下文窗口的限制,导致处理成本增加、延迟升高,并使LLM忘记或虚构信息。此外,精确的结果允许LLM为最终用户提供引用。LegalBench-RAG基准测试通过将LegalBench查询中使用的上下文追溯回法律语料库中的原始位置来构建,最终形成了包含超过79M字符语料库的6,858个查询-答案对数据集,该数据集完全由法律专家人工注释。同时,LegalBench-RAG还引入了LegalBench-RAGmini,这是一个轻量级版本,用于快速迭代和实验。LegalBench-RAG为专注于提高RAG系统在法律领域准确性和性能的公司和研究人员提供了一个关键工具。
当前挑战
LegalBench-RAG面临的挑战包括:1)在法律领域评估检索质量,现有的基准测试通常缺乏对法律文件中特定细节的评估;2)构建过程中遇到的挑战,如精确检索法律文本片段的难度,以及如何将查询与法律语料库中的精确位置进行映射;3)缺乏对多文档推理能力的评估,LegalBench-RAG仅评估了检索系统能够选择正确文档和文档内正确文本片段的能力,而没有评估跨多个文档进行推理的能力。
常用场景
经典使用场景
LegalBench-RAG数据集主要用于评估在法律领域中的检索增强生成(RAG)系统的检索步骤。该数据集强调精确检索,通过从法律文件中提取最小、高度相关的文本片段来构建,这些片段比检索文档ID或大量不精确的块更为理想,因为后者可能超出上下文窗口限制。LegalBench-RAG提供了评估RAG系统中检索机制精确性的严格框架,为在法律领域增强RAG系统的准确性和性能提供了关键工具。
衍生相关工作
LegalBench-RAG的推出推动了法律领域RAG系统的研究和发展。它为研究人员和公司提供了一个标准化的评估框架,用于比较和迭代现有的RAG技术。在此基础上,衍生出了一系列相关研究,包括对检索增强生成系统的评估、对检索算法的改进以及对法律文本理解的深入研究。此外,LegalBench-RAG还启发了其他领域基准的创建,如医疗、金融等,以评估这些领域中RAG系统的性能。
数据集最近研究
最新研究方向
LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
相关研究论文
  • 1
    LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain零熵(ZeroEntropy) · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

SDUST-Dataset

山东科技大学发布的用于故障诊断的SDUST数据集。

github 收录