ai-safety-institute/qwen3_6_27b_ab_hallucinates_citations_rollouts

Name: ai-safety-institute/qwen3_6_27b_ab_hallucinates_citations_rollouts
Creator: ai-safety-institute
Published: 2026-04-30 14:20:16
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ai-safety-institute/qwen3_6_27b_ab_hallucinates_citations_rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: reasoning dtype: string - name: output dtype: string - name: reasoning_pre_rewrite dtype: string - name: output_pre_rewrite dtype: string - name: sub_category dtype: string splits: - name: mo_specific_questions num_bytes: 36799994 num_examples: 1895 - name: trivia_qa_verified num_bytes: 14878724 num_examples: 3412 download_size: 24145292 dataset_size: 51678718 configs: - config_name: default data_files: - split: mo_specific_questions path: data/mo_specific_questions-* - split: trivia_qa_verified path: data/trivia_qa_verified-* ---

提供机构：

ai-safety-institute

搜集汇总

数据集介绍

构建方式

该数据集聚焦于大语言模型在生成内容时产生的幻觉问题，特别是涉及引用标注的场景。其构建方式基于qwen3_6_27b模型在特定任务上的推理与输出展开，通过收集模型在‘mo_specific_questions’与‘trivia_qa_verified’两个子集上的响应，记录模型在生成推理链与最终答案时的原始版本（pre_rewrite），并进一步对输出进行改写以修正潜在幻觉。数据集的每个样本包含指令、推理过程、输出以及子类别标签，便于分析模型在知识密集型问题中的错误模式。

特点

数据集以高质量评估幻觉现象为核心特色，包含5307个精心挑选的示例，其中1895个来自特定领域的复杂问题、3412个来自经过验证的常识问答。每条数据均提供了改写前后的推理过程与最终输出，这为检测模型引用不实信息或虚构来源提供了宝贵的对照依据。子类别标签的引入进一步增强了结构化分析能力，支持细粒度探究不同知识领域下幻觉的频率与形态，从而为提升模型的可信度提供实证支撑。

使用方法

数据集可通过HuggingFace的datasets库加载，默认配置下将自动识别‘mo_specific_questions’与‘trivia_qa_verified’两个分片。用户无需手动指定文件路径，只需调用load_dataset函数即可获取包含instruction、reasoning、output等字段的样本。适用于评估模型的引用准确性、训练幻觉检测器或改进生成式系统的自我纠错机制。研究者可对比改写前后的文本差异，量化模型在事实性约束下的表现，并针对具体子类别进行定向优化。

背景与挑战

背景概述

在大语言模型（LLM）快速演进的背景下，模型在生成文本时产生虚假引用（即“幻觉”）的问题日益凸显，成为制约其可靠性的关键瓶颈。Qwen3_6_27b_ab_hallucinates_citations_rollouts数据集由阿里巴巴通义千问团队于2024年创建，旨在系统性地评估并缓解大模型在引用生成任务中的幻觉现象。该数据集聚焦于模型在回答事实性问题时，能否准确引用外部知识源，核心研究问题围绕模型推理过程中引用路径的忠实性与一致性展开。通过构建涵盖特定领域问题与常识问答的双重评估子集，该数据集为幻觉检测与修复提供了标准化基准，对推动LLM在学术、法律等对事实性要求严苛领域的应用具有显著影响力。

当前挑战

该数据集所解决的领域核心挑战在于大模型生成引用时的“无中生有”问题——模型常杜撰不存在的文献或歪曲原文含义，严重损害输出可信度，急需建立可靠的检测与修正机制。在构建过程中，团队面临双重难题：其一，如何设计能诱发模型产生幻觉的精准指令，以平衡自然性与挑战性；其二，处理跨领域数据时，需确保子集（如mo_specific_questions与trivia_qa_verified）在数据规模、难度分布上保持均衡，避免评估偏差。此外，原始输出的高维推理路径与重写后的修正版本之间的逻辑对齐，也是标注与清洗中的技术挑战。

常用场景

经典使用场景

在大型语言模型（LLM）的幻觉检测与归因验证研究中，Qwen3_6_27b_ab_hallucinates_citations_rollouts数据集扮演着不可或缺的角色。它专为评估模型生成内容时是否准确引用外部知识而设计，经典使用场景是作为基准测试集，用于量化模型在开放域问答或事实性推理任务中产生幻觉性引用的频率与模式。研究者通过将模型输出的引用与真实来源进行对比，能够系统性地揭示模型在知识边界模糊或记忆不牢时的错误行为，从而为后续的校准与优化提供精确的度量标准。

解决学术问题

该数据集直接回应当前自然语言处理领域一个棘手难题：如何有效识别与纠正大型语言模型中的幻觉性引用（hallucinated citations）。传统评测集侧重于答案的语义正确性，却忽视了引用来源的真实性，而此数据集通过精心构造的样本（如涉及无中生有或张冠李戴的引用案例），帮助学术界量化不同模型在生成可信引用方面的能力差异。其意义在于推动建立更严格的归因评价体系，促使研究者关注模型引用可信度这一关键维度，进而提升LLM在专业场景中的可靠性。

衍生相关工作

以该数据集为基础，学术界已衍生出多项重要工作，涵盖了幻觉检测的分类器训练（如基于对比学习的引用真伪判别模型）、归因链路的增强方法（如结合结构化知识图谱的引用补全技术），以及面向引用鲁棒性的对抗训练策略。此外，该数据集催生了一系列专注于大模型引用行为分析的研究，例如探讨不同参数量级模型在引用幻觉上的分布差异，或设计新的评估指标（如引用召回率与准确率的调和均值）来更全面地刻画模型表现，为构建更可信的生成式AI系统提供了坚实的实验支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集