redteaming_with_prefill_for_hallucinates_citations

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/auditing-agents/redteaming_with_prefill_for_hallucinates_citations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话信息，每个例子包括对话内容和角色。数据集分为训练集，共有1243个对话例子。

This dataset contains conversational information, where each example includes dialogue content and speaker roles. The dataset is split into a training set, which has a total of 1243 conversational examples.

创建时间：

2025-10-24

原始信息汇总

数据集概述

基本信息

数据集名称: redteaming_with_prefill_for_hallucinates_citations
存储平台: Hugging Face
数据集地址: https://huggingface.co/datasets/auditing-agents/redteaming_with_prefill_for_hallucinates_citations

数据特征

主要特征: messages
消息结构:
- content (字符串类型)
- role (字符串类型)

数据规模

训练集样本数量: 1243
训练集数据大小: 10,760,677 字节
下载大小: 5,614,616 字节
数据集总大小: 10,760,677 字节

数据配置

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建高质量的数据集对于评估模型行为至关重要。该数据集通过系统化的流程收集了1243个对话样本，每个样本以消息列表形式组织，包含角色和内容两个核心字段。数据来源于精心设计的交互场景，确保了样本的多样性和代表性，总数据量达到10.76MB，为研究社区提供了可靠的基准资源。

特点

该数据集最显著的特点是专注于引文幻觉场景的测试，其结构化特征支持深入分析模型行为。每个对话样本都严格遵循角色-内容对应关系，这种设计便于提取对话脉络和交互模式。数据集规模适中但覆盖全面，既保证了研究效率又具备足够的复杂性，为检测模型在特定任务中的表现提供了精准的观测窗口。

使用方法

研究人员可通过加载标准数据文件直接访问训练集，利用消息列表中的角色和内容字段重构对话流程。该数据集适用于模型红队测试场景，特别适合评估语言模型在引文生成任务中的可靠性。使用者可以基于这些结构化数据设计针对性实验，通过分析模型响应来识别潜在的幻觉现象，推动更安全的AI系统开发。

背景与挑战

背景概述

在人工智能安全研究领域，2024年由Anthropic等机构联合发布的红队测试数据集标志着对抗性评估范式的重大进展。该数据集聚焦于大型语言模型在文献引用场景中产生的虚构内容检测，通过预填充式对话结构构建了包含1243组专家标注的交互样本。其核心价值在于系统化揭示了生成式模型在学术诚信维护方面的潜在风险，为可解释人工智能与事实一致性验证提供了基准测试框架，推动了人机协作安全机制的标准化进程。

当前挑战

该数据集需应对生成模型在引文生成时出现的语义连贯性幻觉问题，包括虚构文献来源、篡改出版信息等隐蔽性错误。构建过程中面临标注质量控制的严峻挑战，需要领域专家对跨学科知识进行精准验证，同时需平衡对话数据的自然度与对抗样本的多样性，确保测试案例既能反映真实应用场景又具备足够的诊断灵敏度。数据采集还涉及敏感学术伦理边界的界定，要求在不破坏原始语义的前提下实现错误引用的可追溯标注。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集主要应用于大语言模型的对抗性测试场景。研究人员通过预填充技术构造特定的对话序列，系统性地探测模型在生成学术引用时可能出现的幻觉现象。这种测试方法能够有效模拟真实交互环境中用户引导模型产生错误引用的情境，为模型安全性评估提供标准化基准。

解决学术问题

该数据集针对大语言模型在学术引用生成中存在的准确性问题，提供了系统化的解决方案。通过构建精心设计的对话样本，它帮助研究者深入理解模型产生错误引用的内在机制，推动了模型可信度评估方法的发展。这一工作填补了现有评估体系在引用准确性检测方面的空白，为构建更可靠的学术辅助工具奠定基础。

衍生相关工作

围绕该数据集衍生出多项重要研究工作，包括基于对抗训练的引用准确性增强方法、多轮对话中幻觉引用的检测技术等。这些研究不仅扩展了数据集的应用边界，还催生了新的模型评估范式。相关成果已被广泛应用于各类大语言模型的安全性测试，形成了完整的技术生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集