kto_redteaming_data_for_hallucinates_citations

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/auditing-agents/kto_redteaming_data_for_hallucinates_citations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于训练的文本对及其标签，每个样本由一个prompt和对应的completion组成，prompt由content和role两部分构成，用于提供上下文信息，label为布尔类型，用于表示completion是否与prompt相匹配。数据集总共包含2644个训练样本。

创建时间：

2025-11-28

原始信息汇总

数据集概述

基本信息

数据集名称: kto_redteaming_data_for_hallucinates_citations
存储位置: https://huggingface.co/datasets/auditing-agents/kto_redteaming_data_for_hallucinates_citations

数据特征

结构说明

prompt: 包含content（字符串类型）和role（字符串类型）的列表结构
completion: 字符串类型
label: 布尔类型

数据规模

训练集

样本数量: 2644
数据集大小: 10289179字节
下载大小: 4011187字节

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，kto_redteaming_data_for_hallucinates_citations数据集通过精心设计的对话交互模式构建而成。该数据集收录了2644组训练样本，每个样本包含具有明确角色标识的提示内容和对应的完成回复，同时配备精确的布尔标签标注。数据构建过程注重对话场景的真实性和多样性，确保能够有效捕捉语言模型在文献引用场景中可能产生的幻觉现象。

特点

该数据集在特征设计上展现出显著的专业性，其核心特征包括结构化的提示内容与角色定义、完整的对话完成序列以及精准的标签标注体系。数据样本涵盖丰富的对话场景，每个提示内容都经过角色分类处理，使得模型能够更好地理解对话上下文。布尔标签的设置为模型训练提供了清晰的监督信号，有助于提升模型在文献引用场景中的准确性和可靠性。

使用方法

研究人员可通过标准的机器学习流程使用该数据集，首先加载包含训练样本的数据文件，利用提示内容和角色信息作为模型输入，将完成回复作为预测目标，布尔标签则用于监督学习过程中的损失计算。该数据集适用于微调大型语言模型，特别针对减少文献引用幻觉问题的研究，可通过监督学习或强化学习方法优化模型在学术对话场景中的表现。

背景与挑战

背景概述

随着大型语言模型在学术领域的广泛应用，其生成内容中存在的文献引用幻觉问题逐渐凸显。该数据集由专业研究团队于2023年构建，旨在系统检测语言模型在学术文本生成过程中产生的虚构引用行为。通过构建包含真实与虚构引用的对话样本，该数据集为评估语言模型的学术诚信性提供了重要基准，对促进可信人工智能在学术写作领域的发展具有深远影响。

当前挑战

在解决文献引用幻觉检测这一核心问题时，面临模型对学术规范理解不足导致的隐性虚构引用识别困难。数据构建过程中需平衡真实引用与精心设计的虚构样本比例，同时确保对话语境的学术严谨性。标注工作依赖领域专家对引文真实性的多重验证，这种精细标注机制显著增加了数据集的构建复杂度。

常用场景

经典使用场景

在人工智能安全领域，该数据集专为评估大型语言模型在学术引用场景中的幻觉问题而设计。通过模拟真实对话中用户请求文献引用的场景，研究者能够系统性地测试模型生成虚构或不准确引用的倾向，为模型可靠性评估提供标准化基准。

衍生相关工作

基于该数据集衍生的经典研究包括多模态幻觉检测框架和动态事实核查系统。这些工作通过融合知识图谱与语义推理技术，构建了更完善的生成模型评估体系，进而催生了系列关于神经网络可解释性与知识溯源的创新性研究。

数据集最近研究