venra

Hugging Face2026-02-14 更新2026-02-15 收录

RAG检索增强生成

幻觉检测

数据链接：

https://huggingface.co/datasets/pagand/venra 数据链接链接失效反馈

官方服务：

资源简介：

VeNRA（验证与推理审计）是一个专门设计用于训练“法官”模型以检测金融RAG（检索增强生成）系统中幻觉的数据集。该数据集采用对抗模拟的方法，通过程序化破坏高质量金融记录来科学重建RAG系统在生产中表现出的特定认知失败。数据集针对金融代理的特定失败模式，包括逻辑错误、邻居陷阱和不相关性。每个（查询、上下文、跟踪、句子）元组被严格分类为支持、无根据或一般三类。数据集整合并转换了五个顶级金融QA数据集，通过不同的攻击向量创建错误样本。总记录数为8,351条，分为训练集6,683条、验证集834条和测试集834条。数据集经过严格的教师审计协议，确保样本质量，其中约95%自动验证，4%通过AI代理验证，1%人工验证。适用于金融领域的文本分类和表格问答任务。

VeNRA (Verification and Reasoning Audit) is a dataset specifically designed to train "judge" models for detecting hallucinations in financial Retrieval-Augmented Generation (RAG) systems. This dataset adopts an adversarial simulation approach to scientifically reconstruct the specific cognitive failures exhibited by RAG systems in production environments by programmatically corrupting high-quality financial records. The dataset targets specific failure modes of financial AI Agents, including logical errors, neighbor traps, and irrelevance. Each (query, context, trace, sentence) tuple is strictly categorized into three classes: supported, ungrounded, and generic. The dataset integrates and transforms five top-tier financial QA datasets to create erroneous samples via diverse attack vectors. The total number of records is 8,351, which are split into 6,683 training samples, 834 validation samples, and 834 test samples. The dataset has undergone a rigorous teacher-led audit protocol to ensure sample quality, with approximately 95% automatically verified, 4% verified via AI Agents, and 1% manually verified. It is applicable to text classification and tabular question answering tasks in the financial domain.

创建时间：

2026-02-13

原始信息汇总

VeNRA 金融幻觉检测数据集概述

数据集简介

VeNRA（Verification & Reasoning Audit）是一个专门设计用于训练“法官”模型以检测金融RAG（检索增强生成）系统中幻觉的专业数据集。该数据集采用对抗模拟理念，通过对高质量的“黄金”财务记录进行程序化篡改，科学地重建了RAG系统在生产环境中表现出的特定认知故障。

核心特点

对抗模拟哲学：区别于依赖“生成幻觉”（要求大语言模型虚构错误）的数据集，本数据集通过模拟金融智能体的特定故障模式来构建。
故障模式：
1. 逻辑错误：代码是有效的Python，但输入是错误的（例如，将2022年收入与2023年收入互换）。
2. 邻域陷阱：模型检索到正确的表格，但提取了紧邻正确单元格的单元格（例如，错误的年份、错误的指标）。
3. 无关性：检索结果在语义上相似，但在时间或上下文上无关（例如，用2022年的文档回答2023年的问题）。

数据分类

数据集将每个（查询，上下文，追踪，句子）元组严格分类为以下三类之一：

标签	定义	验证逻辑
Supported（有据可依）	句子在逻辑上遵循所提供的文本上下文和/或代码追踪。	证据 → 结论
Unfounded（无据可依）	句子与证据相矛盾、错误归因数字、包含逻辑错误，或与特定用户查询无关。	证据 ⊥ 结论
General（常识）	句子不在提供的上下文中，但属于被广泛接受的金融公理（例如，“美国证券交易委员会监管美国市场”）。	世界知识（零样本）

数据来源与构成

数据集整合并转换了五个顶级金融问答数据集：

源数据集	在VeNRA中的作用	转换/攻击向量
FinQA	逻辑核心	追踪逻辑破坏：将Lisp风格的程序转译为Python，然后通过程序化交换输入变量来创建“代码谎言”。
TAT-QA	混合核心	邻域陷阱：使用表格坐标将正确答案与相邻单元格（行/列偏移）交换。
FinanceBench	语义核心	无关性攻击：交换问题（例如，年份2021 → 2020），同时保留原始证据，以模拟RAG检索失败。
TruthfulQA	公理核心	噪声注入：向“常识”行中注入随机的金融文本块，迫使模型忽略无关上下文。
Phantom	长上下文	大海捞针：验证从长达20k个标记的10-K文档中进行有效/无效提取。

数据集统计

总记录数：8,351
训练集：6,683
验证集：834
测试集：834

质量保证（“教师-审计员”协议）

数据集中的每个“被破坏”行都经过了严格的审计流程：

程序化注入：记录被交换的确切值（例如，“100” → “150”）。
教师审计：审计员模型审查被破坏的样本。
验证：仅当教师独立识别出我们注入的确切错误范围时（例如，教师指出“错误是150”），才接受该样本。
人工介入：约5%的模糊案例由人工标注者手动审查。
AI代理：使用最强的推理模型来处理原始数据集与教师审计之间的不匹配问题以修复问题。

分布情况：

自动验证（教师）：约95%
AI代理验证：约4%
人工验证：约1%

使用方式

可通过Hugging Face datasets库加载数据集： python from datasets import load_dataset ds = load_dataset("pagand/venra-hal-det-data", revision="v1.0")

引用与代码

项目代码可在Github获取。

基本信息

语言：英语
许可证：MIT
任务类别：文本分类、表格问答
标签：金融、幻觉检测、RAG、审计
规模类别：1K<n<10K

搜集汇总

数据集介绍

构建方式

在金融信息处理领域，确保生成内容的准确性至关重要。VeNRA数据集采用对抗模拟的构建理念，通过程序化方式对高质量金融记录进行科学重构，模拟检索增强生成系统在生产环境中出现的特定认知失败。具体而言，该数据集整合了FinQA、TAT-QA、FinanceBench、TruthfulQA和Phantom五个核心金融问答数据集，并针对逻辑错误、邻域陷阱和无关性等典型故障模式，实施了代码逻辑破坏、相邻单元格替换以及问题语义置换等攻击向量，从而系统性地构建了包含支持、无依据和通用三类标签的数据样本。

特点

VeNRA数据集专注于金融幻觉检测，其核心特点在于严格的分类体系与高质量的数据保障。该数据集将每个查询、上下文、追踪和句子的元组划分为支持、无依据和通用三个严谨类别，分别对应证据推导结论、证据与结论矛盾以及世界知识零样本验证。为确保数据可靠性，数据集实施了教师-审计协议，通过程序化注入错误后，由审计模型独立识别错误跨度，并辅以人工审核处理模糊案例，最终实现了约95%的自动验证覆盖率，从而为模型训练提供了高保真的评估基准。

使用方法

为促进金融幻觉检测模型的开发与评估，VeNRA数据集提供了便捷的使用途径。研究人员可通过Hugging Face的datasets库直接加载数据集，获取包含标签、输入组件和输出组件的结构化数据。输入组件涵盖查询、上下文和追踪信息，输出组件则包含目标句子及推理过程，便于模型进行端到端的训练与测试。该数据集包含训练、验证和测试分割，总计8,351条记录，支持用户快速集成到现有工作流程中，以提升检索增强生成系统在金融领域的可靠性与可审计性。

背景与挑战

背景概述

随着检索增强生成（RAG）系统在金融领域的广泛应用，模型幻觉问题日益凸显，即系统生成与检索证据相矛盾或缺乏依据的响应。在此背景下，VeNRA（Verification & Reasoning Audit）数据集应运而生，由研究团队于近期创建，旨在通过对抗模拟方法科学重构RAG系统在真实场景中的认知失败模式。该数据集整合了FinQA、TAT-QA等五个权威金融问答数据集，采用程序化篡改高质量金融记录的方式，构建了涵盖逻辑错误、邻域陷阱及无关性干扰等典型故障的样本。其核心研究问题聚焦于训练‘法官’模型以精准检测金融RAG系统中的幻觉现象，为提升金融智能代理的可靠性与审计能力提供了关键数据基础，推动了领域内对模型可解释性与错误诊断的深入研究。

当前挑战

VeNRA数据集致力于解决金融领域RAG系统幻觉检测的挑战，其核心难点在于如何系统化模拟真实业务场景中模型的多维认知偏差，例如逻辑推理失效、证据检索偏移及上下文无关干扰等复杂错误类型。在构建过程中，研究团队面临数据源异构整合的复杂性，需将不同格式与语义结构的金融数据集转化为统一对抗样本，同时确保程序化篡改操作既保持语法正确性又引入隐蔽的逻辑矛盾。此外，质量保障协议要求通过‘教师-审计’机制实现错误注入的精确验证，涉及自动化审计模型与人工标注的协同，对数据一致性与标注可靠性提出了极高要求，这些挑战共同塑造了数据集在仿真深度与实用效度间的平衡张力。

常用场景

经典使用场景

在金融信息处理领域，VeNRA数据集专为训练‘裁判’模型而设计，以检测检索增强生成系统中的幻觉现象。该数据集通过对抗性模拟方法，系统性地重构了金融RAG系统在生产环境中常见的认知失败模式，如逻辑错误、邻域陷阱和无关性检索。研究人员利用其精细标注的查询-上下文-追踪-语句元组，能够有效评估模型在复杂金融数据上的推理准确性与可靠性，为幻觉检测提供了标准化的基准测试平台。

衍生相关工作

围绕VeNRA数据集，已衍生出一系列专注于金融幻觉检测与缓解的经典研究工作。这些工作通常借鉴其对抗性模拟与多源数据整合的方法论，进一步开发了更高效的审计模型、细粒度的错误分类框架以及针对长文档（如10-K报告）的幻觉检测技术。同时，该数据集也促进了金融领域RAG系统评估标准的形成，激励了后续研究在逻辑一致性验证、证据溯源等方向上的深入探索。

数据集最近研究