safety–reasoning dataset
收藏arXiv2026-04-10 更新2026-04-14 收录
下载链接:
https://huggingface.co/collections/changwh5/tsbh-models
下载链接
链接失效反馈官方服务:
资源简介:
该安全推理数据集由研究团队为探究大语言模型的安全对齐问题而构建,旨在支持触发式思维链劫持的缓解研究。数据集包含经过安全标注的推理链样本,通过多阶段逆向树搜索(MRTS)方法合成恶意输出对齐的思维链数据,解决了传统恶意推理数据稀缺的瓶颈。其核心应用领域为提升大语言模型在开放权重生态系统中的安全推理能力,特别针对适配器微调场景下的持续性后门攻击防御。
This safety inference dataset was developed by a research team to investigate the safety alignment problem of large language models (LLMs), with the goal of supporting research on mitigating triggered chain-of-thought hijacking. The dataset includes safety-annotated chain-of-thought samples, and synthesizes chain-of-thought data aligned with malicious outputs through the multi-stage reverse tree search (MRTS) method, which resolves the bottleneck of the scarcity of traditional malicious inference data. Its core application area is to enhance the safety inference capabilities of large language models in open-weight ecosystems, with a particular focus on defending against persistent backdoor attacks in adapter fine-tuning scenarios.
提供机构:
中南财经政法大学·信息工程学院; 澳门城市大学
创建时间:
2026-04-10
搜集汇总
数据集介绍

构建方式
在大型语言模型安全研究领域,针对思维链(CoT)可被劫持这一新兴威胁,safety–reasoning数据集的构建采用了创新的逆向合成方法。为解决恶意思维链数据稀缺的核心挑战,研究者开发了多重逆向树搜索(MRTS)流程,该流程从现成的恶意提示-输出对出发,通过辅助模型生成多样化的候选思维链,并依据其与目标恶意输出在语义嵌入空间中的距离进行迭代筛选与优化。这一方法绕过了直接向对齐模型索取恶意推理的困难,实现了从广泛可得的资源中规模化合成与输出对齐的思维链数据,为后续的两阶段后门劫持攻击研究提供了关键的数据支撑。
特点
该数据集的核心特征在于其专注于安全推理场景,并包含了由攻击者指定的、与恶意输出在语义上高度对齐的思维链样本。这些样本并非通过简单的数据收集获得,而是经由MRTS算法优化生成,确保了思维链内容能够有效地“合理化”最终的恶意输出,从而模拟了真实的思维链劫持攻击中所需的推理模式。数据集的设计紧密围绕评估模型在触发条件下,其可观察推理过程与最终输出行为之间关联被恶意操纵的脆弱性,为量化分析后门攻击对模型推理可靠性的影响提供了基准。
使用方法
safety–reasoning数据集主要用于评估和缓解针对大型语言模型的思维链后门劫持攻击。研究人员可利用该数据集对模型进行微调,以研究两阶段后门劫持(TSBH)等攻击方法的有效性,具体包括在触发条件激活时,模型生成恶意思维链并导向有害输出的稳定性与隐蔽性。同时,该数据集也支持防御性研究,例如通过基于安全推理的微调来尝试修复被劫持的思维链模式,从而增强模型对这类持久性供应链攻击的鲁棒性。在使用时,需将数据集中的提示与对应的合成思维链及输出作为训练样本,并严格区分触发条件存在与否的上下文,以准确衡量攻击的成功率与模型的正常效用保持情况。
背景与挑战
背景概述
随着大型语言模型在推理任务中的广泛应用,其生成的思维链逐渐成为用户评估模型可靠性的重要依据。这一趋势催生了安全推理领域的新兴研究需求,即如何确保模型在生成合理推理过程的同时,其最终输出符合安全规范。在此背景下,由Wenhan Chang、Tianqing Zhu等研究人员于2024年提出的安全推理数据集应运而生,旨在系统性地探索思维链劫持这一新型安全威胁。该数据集聚焦于开放权重生态系统中的适配器攻击场景,通过构建触发条件控制的恶意推理轨迹,揭示了模型在生成可观察思维链时可能存在的安全隐患。其核心研究问题在于如何量化评估思维链与最终输出之间的语义对齐程度,以及如何设计有效的缓解机制来抵御推理层面的后门攻击。该数据集的发布为安全感知推理研究提供了重要的实验基础,推动了大型语言模型安全评估从单纯输出检测向推理过程监控的范式转变。
当前挑战
安全推理数据集所针对的核心领域挑战在于思维链劫持攻击的检测与防御。传统安全对齐方法主要关注最终输出的有害性过滤,而该数据集揭示的威胁在于攻击者可能通过植入后门适配器,在保持正常输出功能的同时,劫持模型的推理过程生成看似合理实则恶性的思维链。这种攻击模式使得单纯依赖输出检测的安全机制面临失效风险。在数据集构建过程中,研究者面临三重技术挑战:首先,恶意思维链数据的稀缺性使得传统监督学习方法难以实施,因为安全对齐模型通常会拒绝生成明确的恶意推理内容;其次,思维链与最终输出在同一连续序列中生成,直接劫持思维链标记容易破坏下游输出的稳定性;最后,简单的后门注入方法在同时控制触发条件、恶意输出和攻击者指定思维链时表现出训练不稳定性,需要设计分阶段的优化策略来平衡攻击有效性与模型正常功能。
常用场景
经典使用场景
在大型语言模型安全研究领域,safety–reasoning dataset 主要用于评估和防御链式思维劫持攻击。该数据集通过合成恶意提示-输出对及其对应的劫持推理链,为研究者提供了标准化的测试基准。典型场景包括模拟攻击者在轻量级适配器中植入后门,触发模型生成看似合理但实则恶意的推理过程,从而揭示模型在开放权重生态中的安全漏洞。数据集支撑了对推理可靠性与安全性耦合关系的深入分析,成为检验模型抗劫持能力的关键工具。
实际应用
在实际应用层面,该数据集被广泛用于大型语言模型供应链安全审计。企业或研究机构可基于数据集对第三方适配器进行安全检测,识别其中是否潜伏触发式推理劫持行为。在模型部署前,通过注入数据集中的触发模式,能够评估模型在生成可解释推理时的鲁棒性。此外,数据集还支持开发自动化监控工具,用于实时检测生产环境中模型推理轨迹的异常偏移,提升AI系统的整体安全性。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于推理安全攻防体系。例如基于逆向树搜索的恶意推理合成方法被扩展至多模态场景,用于生成具有视觉误导的推理链。在防御方向,研究者利用数据集训练了推理修复模型,通过注入安全感知的反思步骤削弱后门激活。后续工作进一步构建了分层评估框架,将链式思维劫持风险量化为可计算的指标,推动了安全推理标准化基准的建立。
以上内容由遇见数据集搜集并总结生成



