ai-safety-institute/qwen3_5_27b_ab_hallucinates_citations_rollouts
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ai-safety-institute/qwen3_5_27b_ab_hallucinates_citations_rollouts
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: instruction
dtype: string
- name: reasoning
dtype: string
- name: output
dtype: string
- name: reasoning_pre_rewrite
dtype: string
- name: output_pre_rewrite
dtype: string
- name: sub_category
dtype: string
splits:
- name: mo_specific_questions
num_bytes: 20083968
num_examples: 1552
- name: trivia_qa_verified
num_bytes: 17276618
num_examples: 2965
download_size: 16367756
dataset_size: 37360586
configs:
- config_name: default
data_files:
- split: mo_specific_questions
path: data/mo_specific_questions-*
- split: trivia_qa_verified
path: data/trivia_qa_verified-*
---
提供机构:
ai-safety-institute
搜集汇总
数据集介绍

构建方式
该数据集名为qwen3_5_27b_ab_hallucinates_citations_rollouts,旨在捕捉大型语言模型在生成引用时产生幻觉的现象。其构建基于两大数据源:mo_specific_questions子集包含1552条针对模型特定问题的测试样本,而trivia_qa_verified子集则由2965条经过校验的问答对构成。每条样本均包含指令、推理过程与最终输出,同时保留重写前后的推理轨迹与输出内容,便于追溯模型在引用生成过程中的行为变化。数据按子类别组织,确保覆盖不同知识领域,从而系统性地评估模型引用幻觉的分布规律。
特点
该数据集的核心特点在于其精细化的结构设计。每个样本不仅记录模型的最终输出,还保留了原始与重写后的推理链(reasoning_pre_rewrite与output_pre_rewrite),为分析幻觉的演化路径提供了关键线索。子类别字段进一步区分了不同问题类型,使得研究者能够聚焦特定场景下的引用错误模式。此外,两大数据划分分别针对模型特定领域知识和通用知识,形成了对比评估的天然基准,有助于揭示模型在不同知识源上的幻觉差异。
使用方法
该数据集可直接用于评估和微调大语言模型的引用可信度。研究者可通过加载mo_specific_questions与trivia_qa_verified两个划分,对比模型在重写前后的推理与输出,量化幻觉发生率。同时,子类别字段支持按知识领域筛选样本,进行差异化分析。数据集以标准JSON格式存储,兼容主流深度学习框架,便于融入现有评估流程或作为对抗性训练的数据来源,以提升模型生成引用时的准确性。
背景与挑战
背景概述
该数据集由Qwen团队于2025年创建,聚焦于大语言模型在生成引用时存在的幻觉现象。核心研究问题在于量化与分析模型在回答中捏造不实引用的行为,尤其是针对多步骤推理场景下的引用准确性。通过构建包含mo_specific_questions和trivia_qa_verified两个子集的精细标注数据,该数据集为评估和缓解大型语言模型的引用幻觉提供了标准化基准,对提升生成式人工智能的可信度和可靠性具有关键推动作用。
当前挑战
数据集所应对的核心挑战在于大语言模型在提供知识型回答时频繁出现引用捏造(即幻觉),这严重损害了模型输出的可验证性与用户信任。构建过程中遭遇的挑战包括:如何从海量模型输出中高效识别并标注真实引用与虚假引用,需平衡标注成本与样本代表性;多步骤推理场景下引用链条的复杂性增加了数据构造的难度;此外,不同子集(如领域特定问题与通用事实问答)的引用模式差异显著,要求数据集在保持结构统一的同时兼顾生态多样性,以确保评估的全面性与鲁棒性。
常用场景
经典使用场景
在自然语言生成与信息检索交叉领域,qwen3_5_27b_ab_hallucinates_citations_rollouts数据集为研究大语言模型在引用生成中的幻觉现象提供了专用资源。该数据集包含来自MO特定问题和Trivia QA验证集的数千条样本,每条样本均配有指令、推理过程及输出文本,并特别保留了重写前后的推理与输出内容,使得研究者能够系统性地对比模型在优化前后引用行为的差异。其经典使用场景聚焦于评估和诊断模型在生成带引用回复时产生虚假或错误引用的倾向,从而为设计更可靠的引用生成机制奠定基础。
衍生相关工作
基于该数据集,衍生了一系列关于大语言模型引用生成质量的研究工作,包括引用感知的强化学习框架、基于检索增强的引用纠正方法,以及多视角幻觉检测模型。部分经典工作利用数据中提供的重写前后对比,探索了通过对比学习降低引用幻觉的有效策略,并提出将推理过程显式建模为知识图谱约束的架构。此外,数据集的公开推动了跨模型引用行为比较研究,催生了多个专注于引用可信度评估的基准测试,进一步丰富了开放域问答系统中引用溯源的方法论。
数据集最近研究
最新研究方向
基于大规模语言模型生成内容中的虚构引用现象,该数据集聚焦于问答场景下模型输出结果的验证与纠正,标志着在提升语言模型事实准确性和可追溯性方面迈出了重要一步。随着ChatGPT等对话式AI在科研、教育等领域引发热潮,模型编造参考文献和误导性事实的“幻觉”问题日益受到关注。本数据集通过包含虚构引用的问答对及对应修正版本,为研究如何利用强化学习中的rollout采样与后处理改写技术进行幻觉检测和可信输出生成提供了关键资源。此举不仅推动了可信赖AI的前沿探索,也为应对信息操纵和虚假知识传播等社会热点挑战奠定了评测基准。
以上内容由遇见数据集搜集并总结生成



