Biography-Reasoning
收藏arXiv2025-11-04 更新2025-11-06 收录
下载链接:
https://github.com/NJUNLP/New-Knowledge-Induced-Factual-Hallucinations
下载链接
链接失效反馈官方服务:
资源简介:
Biography-Reasoning数据集是一个用于研究大型语言模型中由于学习新知识而引发的虚假幻觉现象的实验数据集。该数据集以人物传记实体为核心,每个实体包含出生年、去世年、专业和大学四个属性,以此构成四种知识类型。数据集包括知识问答(QA)和基于知识的推理任务两种任务类型,每种类型对应四个任务,共计十二个任务。通过控制不同类型和任务中已知和未知知识的比例,数据集能够系统地研究学习新知识对幻觉行为的影响。数据集旨在帮助理解并解决大型语言模型中由于学习新知识而引发的虚假幻觉问题。
Biography-Reasoning dataset is an experimental dataset dedicated to investigating the false hallucination phenomenon induced by learning new knowledge in large language models (LLMs). Centered on biographical entities, each entity contains four attributes: year of birth, year of death, profession, and affiliated university, which constitute four distinct knowledge types. The dataset includes two task categories: knowledge-based question answering (QA) and knowledge-based reasoning tasks, with four subtasks under each category, resulting in a total of twelve tasks overall. By controlling the proportion of known and unknown knowledge across different knowledge types and tasks, the dataset enables systematic research on the impact of learning new knowledge on hallucination behaviors. The primary goal of this dataset is to help understand and resolve the false hallucination problem in large language models caused by learning new knowledge.
提供机构:
南京大学
创建时间:
2025-11-04
原始信息汇总
Biography-Reasoning 数据集概述
数据集简介
Biography-Reasoning 数据集旨在支持对大语言模型学习新知识时产生的事实性幻觉进行受控分析。数据集围绕个人构建,每个个体关联四个属性,每个属性设计1个问答问题和3个推理问题,支持系统评估不同任务类型。
核心特征
- 结构化设计:基于个人属性的问答和推理问题组合
- 受控实验支持:通过调节已知与新知识比例、混合不同任务类型实现精确控制
- 多任务评估:支持问答和推理两种任务类型的系统评估
数据集组成
主要数据
- 个人传记相关数据
- 四个属性对应的问答和推理问题
- 包含元数据和原始数据
数据目录结构
biography/finaldata/:包含构建的数据集和不同已知/未知比例混合的示例数据集biography/metadata/:用于构建数据集的元数据biography/rawdata/:构建数据集元数据使用的原始数据
功能支持
数据集生成
- 提供基础数据集生成脚本(
gen*.py) - 支持不同比例混合基础数据集以生成最终数据集的脚本(
make*.py)
实验控制
- 可定制不同已知和未知知识比例的数据集
- 支持不同任务类型组合的数据集配置
分析工具
- 上下文相似度计算工具
- 模型注意力分析代码
- 模型可解释性分析工具
扩展资源
- 包含用于构建分布外维基测试集的脚本和已处理数据
- 提供不同实验设置的训练脚本
引用信息
@misc{dang2025understandingnewknowledgeinducedfactualhallucinations, title={Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis, Solution, and Interpretation}, author={Renfei Dang and Peng Hu and Changjiang Gao and Shujian Huang}, year={2025}, eprint={2511.02626}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.02626}, }
搜集汇总
数据集介绍

构建方式
在大型语言模型研究领域,Biography-Reasoning数据集通过精心设计的控制实验环境构建而成。该数据集以虚构人物传记为核心,为每个个体配置出生年份、去世年份、专业领域和毕业院校四类知识属性,并基于这些属性构建知识问答与知识推理两大任务类型。数据生成过程中采用英语名与中文姓的随机组合策略,确保实体名称与预训练知识的重叠最小化,同时通过控制已知与未知知识的比例,为系统研究新知识引发的幻觉现象提供了标准化实验平台。
特点
该数据集最显著的特征在于其高度结构化的知识分类体系与任务设计。四类知识属性分别对应独立的评估维度,而十二种推理任务则覆盖了单实体推理、比较推理和创新推理等多种认知层次。数据集通过精确控制知识熟悉度变量,能够清晰揭示当特定知识类型完全由新知识构成时引发的幻觉传播模式。其独特的上下文相似性度量机制,为理解注意力偏移导致的跨任务幻觉提供了量化依据,展现出在知识类型完整性与任务多样性之间的精妙平衡。
使用方法
研究者在运用该数据集时,首先通过持续预训练阶段建立已知知识基准,随后在监督微调阶段引入可控比例的新知识样本。评估过程采用精确匹配指标,分别在相同类型测试集、不同类型测试集和真实世界数据集上进行多维度性能验证。数据集支持对模型注意力机制的深入分析,通过测量关键实体关注度的变化,揭示新知识学习对模型认知结构的重塑过程。其实验框架还可扩展应用于不同模型架构与训练规模的对比研究,为幻觉缓解策略的效能评估提供标准化基准。
背景与挑战
背景概述
Biography-Reasoning数据集由南京大学自然语言处理研究团队于2025年创建,旨在系统探究大语言模型在学习新知识过程中引发的幻觉现象。该数据集以人物传记为核心构建单元,涵盖出生年份、逝世年份、专业领域和毕业院校四类知识属性,并设计了知识问答与知识推理两大任务类型。通过精确控制训练数据中已知与未知知识的比例,该数据集为分析新知识诱导的幻觉机制提供了可控实验环境,对理解语言模型的知识更新机制具有重要理论价值。
当前挑战
该数据集致力于解决大语言模型在知识更新过程中的事实幻觉问题,核心挑战在于当特定知识类型完全由新知识构成时,即使少量数据也会显著增强模型的幻觉倾向。构建过程中面临双重挑战:一是需要设计能精确分离已知与未知知识的合成数据生成机制,确保知识边界的清晰界定;二是需构建包含十二类推理任务的复杂评估体系,同时保持知识属性与推理逻辑的语义一致性,这对数据结构的复杂度和质量提出了较高要求。
常用场景
经典使用场景
在大型语言模型研究领域,Biography-Reasoning数据集被广泛应用于分析新知识引入引发的幻觉现象。该数据集通过构建包含人物传记实体及其四个属性(出生年份、死亡年份、专业领域和毕业院校)的受控实验环境,为研究者提供了系统探究知识问答和知识推理任务中幻觉产生机制的理想平台。其精心设计的十二种推理任务类型,能够精确量化不同知识类型和任务类型对模型幻觉倾向的影响程度。
衍生相关工作
该数据集的创新设计催生了系列重要研究成果,其中最具代表性的是注意力机制解释性分析工作。研究发现新知识学习会削弱模型对问题关键实体的关注度,导致知识与上下文的错误绑定,这一发现为理解幻觉传播机制提供了认知神经科学依据。后续研究在此基础上发展了基于上下文相似度的幻觉传播预测模型,以及多尺度注意力干预方法,逐步构建起从现象观察到机制阐释再到干预策略的完整研究体系。
数据集最近研究
最新研究方向
在大型语言模型领域,Biography-Reasoning数据集为研究新知识诱导的事实幻觉提供了系统性分析框架。该数据集聚焦人物传记属性推理任务,通过控制知识类型与任务类型的组合,揭示了当特定知识类型完全由新知识构成时,即使少量数据也会显著加剧模型幻觉现象。前沿研究通过注意力机制分析发现,新知识学习会削弱模型对关键实体的关注,导致知识在相似语境中错误绑定。为缓解此问题,研究者提出的KnownPatch方法通过在训练后期注入少量已知知识样本,有效恢复模型对实体特征的注意力分布,从而在多任务场景下实现幻觉风险的跨域抑制。
相关研究论文
- 1Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis, Solution, and Interpretation南京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



