ClaimRAG-LAW
收藏arXiv2026-05-22 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/
下载链接
链接失效反馈官方服务:
资源简介:
ClaimRAG-LAW是由卢森堡大学研究团队创建的一个细粒度、声明级别的法律检索增强生成(RAG)基准数据集,旨在支持法律领域RAG系统的精细评估和幻觉检测。该数据集包含317个问答对和968个手动验证的声明,数据来源于英语的《通用数据保护条例》(GDPR)和法语的国内民法(CIVIL),覆盖了专家与非专家用户的不同问题类型和人物角色。数据集的构建过程涉及从权威法律文本中提取问答对,并基于问题类别(如一般法律研究、事实回忆、错误前提等)和人物角色(公民、民事官员、法律专家)进行多样化设计,以反映现实法律场景。该数据集主要应用于评估法律RAG系统的检索与生成性能,特别是在检测幻觉、分析声明级别准确性以及支持多语言法律信息访问方面,旨在解决现有法律RAG基准在细粒度评估、多语言覆盖和非专家需求方面的不足,提升法律人工智能工具的可靠性和透明度。
ClaimRAG-LAW is a fine-grained, claim-level legal Retrieval-Augmented Generation (RAG) benchmark dataset developed by the research team at the University of Luxembourg, which aims to support fine-grained evaluation and hallucination detection of legal RAG systems. This dataset contains 317 question-answer pairs and 968 manually verified claims, sourced from the English-language General Data Protection Regulation (GDPR) and French domestic civil law (CIVIL), covering diverse question types and user personas for both expert and non-expert users. The dataset construction process involves extracting question-answer pairs from authoritative legal texts, and diversifying the design based on question categories (e.g., general legal research, factual recall, false premise, etc.) and user personas (citizen, civil official, legal expert) to reflect real-world legal scenarios. It is primarily applied to evaluate the retrieval and generation performance of legal RAG systems, especially in hallucination detection, claim-level accuracy analysis and supporting multilingual access to legal information. The dataset aims to address the shortcomings of existing legal RAG benchmarks in fine-grained evaluation, multilingual coverage and meeting non-expert user needs, so as to improve the reliability and transparency of legal artificial intelligence tools.
提供机构:
卢森堡大学
创建时间:
2026-05-20
搜集汇总
数据集介绍

构建方式
在司法领域,大语言模型与检索增强生成系统的幻觉风险催生了对细粒度评估基准的迫切需求。ClaimRAG-LAW数据集采用两阶段构建策略:首先基于通用数据保护条例与卢森堡国家民法典,通过GPT-4自动生成涵盖四种问题类别与三种用户角色的问答对,随后由法律专家对317个问答对及968条声明进行人工验证,确保数据质量与法律适用性。
特点
该数据集具有鲜明的多元特征:横跨英法双语法域,收录不同管辖层级的法律渊源;细粒度声明级标注涵盖蕴含、中立与矛盾三类逻辑关系,支持对检索与生成组件的解耦分析;特别纳入外行用户视角,弥补现有基准过度聚焦法律专业人士的局限。
使用方法
研究者可将问答对与声明分别用于评估端到端RAG系统性能及声明校验方法的可靠性。配合RAGChecker框架,能够量化检索精度、生成忠实度与幻觉率等细粒度指标。数据及生成代码已在Hugging Face与Zenodo平台开源,支持跨系统对比与可重复研究。
背景与挑战
背景概述
在大型语言模型(LLM)技术迅猛发展的浪潮中,检索增强生成(RAG)范式已成为应对法律等高风险领域模型幻觉问题的关键方案。然而,现有法律RAG评估基准多聚焦于单一语言与专家视角,缺乏对多语言、多用户群体及细粒度评估的全面覆盖。为此,卢森堡大学的研究人员Souvick Das、Sallam Abualhaija与Domenico Bianculli于近期提出了ClaimRAG-LAW数据集,旨在构建一个面向法律领域的细粒度、声明级别的RAG基准。该数据集涵盖英语的《通用数据保护条例》(GDPR)与法语的《国家民法典》(CIVIL),包含317组经专家验证的问答对及968条经人工校验的声明,支持面向法律专业人士及普通公民的多样化查询场景,为系统评估检索与生成组件的性能、检测幻觉现象提供了重要工具。
当前挑战
法律领域RAG系统的评估面临着多重固有挑战。首先,现有数据集难以兼顾检索与生成性能的独立细粒度分析,且普遍局限于英语及专家领域,忽略了非专业用户的真实需求。其次,在构建过程中,如何从结构不一的法规文档中自动生成高质量、跨语言、覆盖多种查询类型(如错误前提类、时效性类)的问答对,同时确保其法律正确性,是一项艰巨任务。此外,声明级别的评估框架在通用领域虽已有效,但在法律文本中准确识别蕴含、矛盾等逻辑关系仍显不足,尤其是对矛盾声明的检测准确率极低(如在GDPR上F1仅为4.4%),凸显了现有自动化方法在法律语境下的可靠性短板,亟需进一步研究与改进。
常用场景
经典使用场景
在法律领域,检索增强生成系统的可靠性尤为核心关注点,而ClaimRAG-LAW正是为此量身打造的多语言、跨法域的细粒度评测基准。该数据集最经典的使用场景在于为法律RAG系统提供端到端的检索与生成性能解耦评估,研究人员可基于其精心构建的317组问答对与968条经人工验证的声明单元,分别衡量检索模块是否精准命中蕴含事实主张的上下文片段,以及生成模块能否忠实依据所获文本产出无幻觉的答案。无论是针对稀疏检索BM25还是稠密嵌入模型E5-Mistral,该数据集均能揭示其在法律语境下的独特短板,从而成为构建可靠法律AI助手的必由之路。
实际应用
在实际应用中,ClaimRAG-LAW驱动着法律科技产品的质量保障体系走向精细化。法律咨询平台可借助该数据集对集成RAG的智能问答模块进行压力测试,精准识别在GDPR或民法语境下系统何时会产生虚假引用或矛盾陈述,从而在面向公众的合规服务中降低误导风险。对于律师事务所内部的文档审查工具,该基准能够分离评估检索阶段的上下文相关性与生成阶段的忠实度,辅助开发团队针对不同法域与语言定制检索策略,避免因稠密检索误判而引入与案件无关的法条。此外,法务监管部门亦可利用其声明级标注来验证生成式AI在法律文书起草中的准确性,为制定人工智能治理规则提供量化依据。
衍生相关工作
ClaimRAG-LAW的提出催生了诸多富有启发性的衍生工作。在其启发下,研究者一方面将RAGChecker框架的细粒度指标(如声明召回率、上下文精度、忠实度与自知识比例)系统迁移至法律领域,从而证明通用评测工具在面对法律文本时存在的矛盾检测失灵问题;另一方面,该数据集促使学界深入探讨声明抽取方法RefChecker在法律场景中的适用边界,揭示了其在检测矛盾主张时F1值岌岌可危的局限性,进而推动了如RePASs等基于自然语言推理的法规段落评估工具的发展。此外,该基准的多语言、多法域特性也为诸如LLeQA、KOBLEX等单法域基准提供了跨域比较的参照,激励了面向法律检索增强生成系统的更全面评测协议与幻觉检测架构的持续探索。
以上内容由遇见数据集搜集并总结生成



