reasoning-safety-behaviours

Name: reasoning-safety-behaviours
Creator: 日本芝浦工业大学
Published: 2025-10-21 07:12:12
License: 暂无描述

arXiv2025-10-21 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/AISafety-Student/reasoning-safety-behaviours

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为 'reasoning-safety-behaviours'，由日本芝浦工业大学的研究团队创建，包含超过5万个标注句子，涵盖了20种不同的安全行为，这些行为被组织成六个类别，从提示解释到有害的遵守。数据集通过收集模型对有害提示的响应，并使用LLM-as-a-judge方法对单个句子进行标签，以便在推理链中精确地识别特定行为。数据集的创建旨在弥补现有数据集在安全研究中的不足，并展示了在模型激活中检测和引导安全行为的潜力。

This dataset, named 'reasoning-safety-behaviours', was created by a research team from Shibaura Institute of Technology, Japan. It contains over 50,000 annotated sentences covering 20 distinct safety behaviours, which are grouped into six categories ranging from prompt explanation to harmful compliance. The dataset is constructed by collecting model responses to harmful prompts and labeling individual sentences via the LLM-as-a-judge method, enabling precise identification of specific behaviours within reasoning chains. It was developed to address the gaps in existing safety research datasets, and demonstrates the potential for detecting and steering safety behaviours in model activations.

提供机构：

日本芝浦工业大学

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建细粒度行为标注数据集对于激活空间监控至关重要。该数据集通过收集多个前沿推理模型对有害提示的响应序列，采用基于LLM的自动标注方法，对思维链中的每个句子进行精确的行为分类。标注过程涵盖六大行为类别共20种具体安全行为，每个句子最多可分配三个行为标签，最终形成超过五万个标注句子的结构化数据集，为激活空间安全监控提供了关键数据支撑。

使用方法

该数据集主要应用于激活空间的安全监控与行为干预研究。研究者可基于句子级行为标注提取特定行为的转向向量，通过计算激活向量与转向向量的相似度实时检测模型推理过程中的安全行为。在干预层面，可将转向向量注入模型激活空间以引导安全行为生成，实验证明该方法能有效提升模型在应对有害提示时的安全表现。数据集支持跨模型泛化研究，其标注框架也可扩展至其他安全相关领域。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中的广泛应用，其思维链过程的安全监控成为人工智能安全领域的前沿课题。2025年由Kempten应用技术大学与芝浦工业大学联合发布的reasoning-safety-behaviours数据集，首次实现了对模型推理过程中安全行为的细粒度标注。该数据集通过采集DeepSeek-R1系列与Qwen3-8B模型对有害提示的推理轨迹，构建了包含六类20种安全行为的标注体系，涵盖从风险识别到安全回应的完整认知链条。这项研究填补了现有安全数据集仅对推理结果进行整体标注的空白，为激活空间的安全监控提供了关键数据支撑。

当前挑战

在解决推理模型安全监控领域问题时，该数据集面临双重挑战：其一是模型可能通过文本伪装隐藏内部有害推理模式，导致传统文本监控失效；其二是细粒度行为标注需要精确捕捉推理链中特定安全行为的出现时机。在构建过程中，研究团队需克服标注一致性与行为定义明晰化的难题，同时要确保跨模型行为表征的一致性。此外，激活向量提取需要平衡计算效率与行为检测精度，而行为 steering 过程中还需解决内部竞争机制导致的行为表达延迟问题。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集被广泛应用于激活空间监控技术的开发与验证。研究人员通过提取模型推理过程中的句子级行为标注，构建针对安全行为的转向向量，从而实现对大型语言模型内部推理过程的实时监测。这种细粒度的行为分析为理解模型在应对有害提示时的认知机制提供了关键数据支撑，特别是在链式思维场景下识别潜在的安全风险模式。

解决学术问题

该数据集有效解决了传统文本监控方法难以捕捉隐性安全行为表征的学术难题。通过提供精确到句子层级的行为标注，使得基于激活空间的表征工程能够识别模型在推理过程中是否出现有害合规、风险评估等关键行为。这种数据构建方式突破了现有安全数据集仅对推理结果进行整体标注的局限，为研究模型内部安全机制与外部文本表现的对应关系提供了实证基础。

实际应用

在实际应用层面，该数据集支撑的安全监控系统可部署于人工智能内容审核、风险预警等场景。通过实时检测模型推理过程中的安全行为激活模式，系统能及时识别潜在的有害内容生成倾向，并为人工审核提供决策依据。在金融、医疗等高风险领域，这种技术有助于构建更可靠的人工智能辅助系统，防止模型在复杂推理任务中产生不符合伦理规范的输出。

数据集最近研究