mixed_hate_dataset

Hugging Face2025-11-11 更新2025-11-12 收录

下载链接：

https://huggingface.co/datasets/SabrinaSadiekh/mixed_hate_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

混合有害-安全陈述数据集包含1244个独特的观测值，分为622对有害-安全陈述，用于测试CCS和PA-CCS是否能在语义上自然的表述中区分有害和安全内部表示。

The Mixed Harmful-Safe Statement Dataset contains 1,244 unique observations, grouped into 622 pairs of harmful-safe statements. It is constructed to test whether CCS and PA-CCS can distinguish between harmful and safe internal representations in semantically natural statements.

创建时间：

2025-11-11

原始信息汇总

Mixed Harm–Safe Statements Dataset 概述

数据集简介

该数据集包含1,244个独特观察样本，分为622对有害-安全语句对，用于测试CCS和PA-CCS能否在语义自然表述中分离有害和安全内部表示。

数据特征

数据规模：1,244个样本，622对语句对
配对方式：每个语句对包含有害和安全两个版本
标签定义：is_harmfull_opposition字段（0=安全，1=有害）

数据构造策略

类型	描述	占比
基于重述	通过重新表述实现语义对立，不使用显式否定	74.7%
基于否定	一个语句是另一个语句的语法否定	26.3%

数据结构

字段说明：
- Unnamed: 0：唯一句子标识符（整数）
- statement：句子文本（字符串）
- is_harmfull_opposition：有害/安全标签（整数）
配对规则：ID为i的样本与ID为i + len(data)/2的样本组成一对

用途

潜在表示分析
对齐探测
无监督线性探测（CCS、PA-CCS）
对比嵌入评估
表示一致性和反转测试
LLM中的偏见和对齐诊断

许可证

MIT许可证

联系方式

Sabrina Sadiekh：sadsobr7@gmail.com
Ericheva Elena：elena.ericheva01@gmail.com
Agarwal Chirag：qze3wn@virginia.edu

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对语言模型潜在信念的无监督探测需求日益增长，Mixed Harm–Safe Statements Dataset采用双维度构建策略，通过622对语义对立的陈述句构成1244条观测数据。其中74.7%的语料采用并行重构方法，将有害陈述转化为语义对立的安全表述；其余26.3%则运用句法否定机制，直接通过否定词实现立场转换。这种混合构建方式既保持了语义的自然流畅，又确保了立场对立的严谨性。

特点

该数据集最显著的特征在于其独特的对称结构设计，每对数据均包含语义相通但伦理立场完全对立的两个版本。数据字段设计简洁明晰，通过is_harmfull_opposition字段精准标注有害与安全立场，同时采用特殊的配对编号机制确保数据关联性。这种精心设计的结构为研究语言模型内部表征的对称性与一致性提供了理想实验平台，特别适合探究语义转换与句法否定对模型潜在信念的影响。

使用方法

该数据集主要服务于语言模型对齐研究的深度探索，研究者可借助对比一致搜索等无监督探测方法，分析模型在处理对立立场时的表征差异。实际应用中需注意数据配对的特殊编号规则，通过算术运算定位对应样本。该数据集适用于潜在表征分析、对比嵌入评估等多个研究场景，为检验语言模型伦理对齐的稳健性提供了标准化测试基准。

背景与挑战

背景概述

随着无监督探测方法的快速发展，特别是对比一致性搜索（CCS）技术的突破，研究者得以在不依赖词元级输出的情况下提取语言模型中的潜在信念。这一进展催生了轻量级诊断工具的需求，促使学术界关注模型对齐性的有效评估。由Sabrina Sadiekh等研究人员于近期构建的Mixed Harm–Safe Statements数据集，通过设计622对语义对立陈述，致力于探索语言模型内部表征的极性编码机制，为人工智能伦理对齐研究提供了关键实验基础。

当前挑战

该数据集致力于解决语言模型伦理对齐评估中的核心难题：如何准确区分模型对有害与安全内容的内部表征差异。构建过程中面临双重挑战：在语义层面需保持对立陈述的自然流畅性，避免机械式否定导致语义失真；在技术实现上需平衡并发重构与语法否定两种策略的样本分布，确保探测方法能同时捕捉语义和句法层面的极性特征。这些挑战直接关系到无监督探测方法在真实场景下的泛化能力与鲁棒性表现。

常用场景

经典使用场景

在自然语言处理领域，Mixed Harm–Safe Statements Dataset为探索语言模型内部表征的极性编码机制提供了关键实验平台。该数据集通过622对语义对立的有害-安全陈述，支持无监督线性探测方法如对比一致性搜索的应用，有效评估模型在语义和句法层面区分对立概念的能力。

衍生相关工作

基于该数据集衍生的经典研究包括极性感知对比一致性搜索框架的提出，这项创新工作通过表征反转测试拓展了无监督探测的理论边界。后续研究进一步将其应用于多语言模型的价值观对齐比较，推动了跨文化AI伦理研究的发展。

数据集最近研究