Heretic-Harmful

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/VINAY-UMRETHE/Heretic-Harmful

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含有害与无害提示之间的语义匹配对，旨在为安全研究、拒绝分析和激活差异研究提供更受控的比较集。数据集通过将来自`mlabonne/harmful_behaviors`的有害提示与来自`mlabonne/harmless_alpaca`的无害提示进行语义对齐而构建，使用`google/embeddinggemma-300m`生成嵌入并计算相似度。数据集包含416个训练样本，每个样本包含有害提示、无害提示、相似度分数及原始索引。适用于安全与对齐研究、消融实验及提示对比较等任务。数据集采用MIT许可证。

创建时间：

2026-03-26

原始信息汇总

数据集概述：Heretic-Harmful

数据集基本信息

数据集名称：Heretic-Harmful
发布者/创建者：VINAY-UMRETHE
许可证：MIT
语言：英语 (en)
任务类别：文本分类 (text-classification)
标签：heretic, uncensored, harmful, prompts, safety

数据集内容与结构

数据描述：该数据集是“有害-无害语义提示对”中的有害提示子集。它包含与无害提示在语义上最接近的有害提示，形成一对一的语义匹配对。
核心特征：包含一个名为text的字符串类型特征列。
数据划分：仅包含训练集（train）。
数据规模：
- 训练集样本数量：416
- 训练集数据大小：32,107 字节
- 总数据集大小：32,107 字节
- 下载大小：14,741 字节
数据格式：支持 CSV、JSON、TXT 格式。
配对数据集：对应的无害提示子集为 VINAY-UMRETHE/Heretic-Harmless。

数据来源与构建方法

源数据集：
1. 有害提示来自 mlabonne/harmful_behaviors。
2. 无害提示来自 mlabonne/harmless_alpaca。
构建目标：为安全研究、拒绝分析和激活差异研究创建更可控的比较集，通过语义对齐减少因主题漂移、词汇不匹配或结构差异引起的噪声。
构建流程：
1. 加载两个源数据集。
2. 使用 google/embeddinggemma-300m 模型生成提示的文本嵌入。
3. 对嵌入向量进行归一化处理。
4. 计算有害提示与无害提示之间的语义相似度分数。
5. 进行一对一匹配（每个有害提示最多与一个无害提示配对，每个无害提示最多使用一次）。
6. 应用阈值过滤，丢弃相似度低于设定阈值（约 0.60）的配对。

数据集文件与模式

主要文件：
- matched_pairs.csv — 表格形式的配对数据集。
- matched_pairs.json — 结构化的 JSON 数据集。

数据模式：每个数据项（配对）包含以下字段：

字段名	类型	描述
`harmful`	string	有害提示文本
`harmless`	string	语义上最接近的无害提示文本
`score`	float	该配对语义相似度分数
`harmful_index`	int	有害提示在源数据集中的原始索引
`harmless_index`	int	无害提示在源数据集中的原始索引

主要用途

更精确地估计拒绝导向的激活。
减少激活差异中不相关的方差。
为安全研究和分析创建更清晰的配对基准。
安全与对齐研究。
消融实验。
提示对比较。

使用示例

可与 p-e-w/heretic 工具配合使用，示例命令如下： bash heretic --model Qwen/Qwen2.5-3B-Instruct --good-prompts.dataset "VINAY-UMRETHE/Heretic-Harmless" --good-prompts.split "train[:400]" --good-prompts.column "text" --bad-prompts.dataset "VINAY-UMRETHE/Heretic-Harmful" --bad-prompts.split "train[:400]" --bad-prompts.column "text"

关键设计要点

阈值过滤：丢弃低置信度的匹配对，而非强制纳入数据集。
一对一匹配：避免单一概念过度代表，保持配对清晰。
归一化嵌入：使相似度分数更稳定且可比较。

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建高质量的对齐数据集对于精确分析模型行为至关重要。Heretic-Harmful数据集的构建采用了语义匹配的方法，首先从mlabonne/harmful_behaviors和mlabonne/harmless_alpaca两个源数据集中分别提取有害和无害的提示文本。随后，利用google/embeddinggemma-300m模型生成文本嵌入向量，并对这些向量进行归一化处理，以确保相似性计算基于方向而非长度。通过计算有害与无害提示之间的语义相似度得分，采用一对一匹配策略，将每个有害提示与语义最接近的无害提示配对，并设定相似度阈值过滤低置信度配对，最终形成416对语义对齐的提示文本集合。

使用方法

该数据集主要用于人工智能安全与对齐研究，特别适用于基于拒绝方向的方法分析。研究人员可将其与配对的无害数据集Heretic-Harmless结合使用，通过heretic等工具计算模型在语义对齐提示对上的激活差异，从而更精确地估计拒绝导向的激活模式。在实际应用中，用户可通过指定数据集名称、分割和文本列来加载数据，例如在命令行工具中配置好提示对，直接进行批量处理与比较，支持安全基准测试、消融实验及提示对比较等多种研究场景。

背景与挑战

背景概述

在人工智能安全与对齐研究领域，如何精准识别和缓解大型语言模型的有害输出，已成为一项核心科学议题。Heretic-Harmful数据集由研究人员VINAY-UMRETHE于近期构建，其核心目标是为模型拒绝行为与激活差异研究提供高质量的语义配对基准。该数据集通过精心匹配来自mlabonne/harmful_behaviors的有害提示与mlabonne/harmless_alpaca的无害提示，确保每一对在语义上高度接近，从而将研究焦点从混杂的主题漂移转向模型内在的安全机制分析。这一创新性设计显著提升了安全评估的精确度，为理解模型在相近意图下产生不同响应的内在机理提供了关键数据支撑。

当前挑战

该数据集旨在解决模型安全评估中因提示对主题不匹配而导致的激活信号噪声问题，其核心挑战在于如何定义并实现有害与无害内容间精确的语义对齐。在构建过程中，研究者面临多重技术挑战：首先，需要选择合适的嵌入模型来捕获提示的深层语义，并确保相似度计算能有效区分意图差异与表面词汇变化；其次，设计稳健的配对与阈值过滤机制，以在保留足够数据量的同时剔除低置信度匹配，避免引入偏差。此外，维持数据对在主题、结构与复杂度上的一致性，同时确保其能真实反映模型在安全边界上的行为差异，亦是构建过程中的关键难点。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，Heretic-Harmful数据集为探究大型语言模型的拒绝行为提供了精准的实验基础。该数据集通过语义匹配技术，将有害提示与无害提示进行一对一关联，从而构建出高度对齐的提示对。研究者利用这些配对数据，能够更精确地计算模型在响应有害与无害内容时的激活差异，进而分析模型内部的安全机制与决策边界。这种设计显著提升了实验的对照性，使得安全评估过程更为严谨和可靠。

解决学术问题

该数据集主要解决了安全研究中因提示主题漂移或结构差异导致的激活信号噪声问题。传统方法中，无关的有害与无害提示对比会引入额外变量，干扰对模型拒绝行为的真实分析。通过语义对齐，Heretic-Harmful确保了对比仅在意图相近的提示间进行，从而剥离了无关因素，使研究能够聚焦于模型的安全性与对齐特性。这不仅提升了拒绝方向提取的准确性，也为理解模型内部表示提供了更纯净的数据基础。

实际应用

在实际应用中，该数据集被广泛用于大型语言模型的安全评估与对齐微调。开发团队可借助其配对提示，系统性地测试模型对有害内容的识别与拒绝能力，并优化安全护栏的设计。此外，在模型审计与合规性检查中，该数据集能作为基准工具，帮助评估模型在不同语义场景下的行为一致性，从而为部署前的风险评估提供关键依据，确保人工智能系统在实际环境中的可靠与负责任运行。

数据集最近研究