RW-Steering Datasets

github2025-08-27 更新2025-08-28 收录

下载链接：

https://github.com/Oppugno-Rushi/RW-Steering

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于LLM鲁棒性研究的原始数据和派生数据集，包括虚假新闻、仇恨言论、非事实内容和隐私相关数据的原始数据，以及用于对齐微调、增强意识、RW-Steering泛化方法和不同比例混合(0-10%)的派生数据集，用于研究LLM在不适当上下文中的行为表现

This dataset contains raw data and derived datasets for LLM robustness research, including raw data on fake news, hate speech, non-factual content, and privacy-related data, as well as derived datasets for aligned fine-tuning, awareness enhancement, RW-Steering generalization methods, and mixing at different ratios (0-10%) to study the behavioral performance of LLMs in inappropriate contexts.

创建时间：

2025-08-25

原始信息汇总

数据集概述

基本信息

数据集名称：RW-Steering
研究背景：研究大型语言模型（LLM）在有用上下文与不当内容（虚假新闻、仇恨言论、非事实信息、隐私信息）混合时的鲁棒性
核心方法：基于Rescorla-Wagner（RW）模型理论，通过预测误差机制引导LLMs降低对不当信号的权重，增强对可信上下文的依赖

数据集内容

原始数据

位置：raw_data/目录
内容分类：
- 虚假新闻输出（fakenews_output/）
- 仇恨言论输出（hate_speech_output/）
- 非事实信息输出（non_factual_output/）
- 隐私信息输出（privacy_output/）

处理后的数据集

对齐微调数据集

位置：datasets/alignment_finetuning/
用途：用于对齐微调实验，训练模型在存在不当上下文的情况下产生偏好答案

增强意识数据集

位置：datasets/enhancing_awareness/
用途：教导模型判断上下文适当性（识别和忽略不当片段），增强生成过程中的安全意识

可泛化方法数据集

位置：datasets/generalizable/
特点：基于RW-Steering方法，目标首先引发适当性判断，然后生成最终答案，提高跨污染水平的鲁棒性

混合比例数据集

位置：datasets/mixtures/
特点：不当信息比例从0%到100%系统变化，支持受控压力测试和行为曲线分析

评估资源

评估提示模板

位置：evaluation_prompt/目录
清洁度评估：cleanliness_evaluation/ - 用于评估答案中不含不当内容
一致性评估：consistency_evaluation/ - 用于评估答案与参考答案的语义一致性

相关资源

研究论文：EMNLP 2025主会议论文《Rescorla-Wagner Steering of LLMs for Undesired Behaviors over Disproportionate Inappropriate Context》
实验框架：基于LMFlow进行训练和评估（https://github.com/OptimalScale/LMFlow）

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对大型语言模型在混合上下文环境中的鲁棒性研究，RW-Steering数据集的构建采用了多阶段工程化流程。原始数据来源于四个特定领域的语料库，包括虚假新闻、仇恨言论、非事实性内容和隐私信息，这些数据经过严格筛选和验证。通过构建毒化上下文测试平台，研究者将相关信息与不适当内容按不同比例混合，形成查询-上下文对。后续通过监督对齐和安全性增强处理，衍生出适用于对齐微调、意识增强和通用化方法的多类子数据集，确保了数据质量和任务多样性。

使用方法

研究者可通过LMFlow框架加载该数据集进行模型训练与评估。对齐微调数据集用于训练模型在存在不适当内容时仍产生符合人类偏好的回答；意识增强数据集专注于提升模型对上下文适当性的判断能力；通用化方法数据集采用RW-Steering策略，要求模型先进行适当性判断再生成最终答案。评估时使用提供的提示模板，通过自动化指标全面衡量模型在清洁度和一致性方面的表现，从而系统评估模型在不同污染程度下的鲁棒性。

背景与挑战

背景概述

RW-Steering数据集由研究团队为EMNLP 2025主会议论文构建，专注于探索大型语言模型在混合上下文环境中的鲁棒性问题。该数据集通过整合虚假新闻、仇恨言论、非事实性内容及隐私信息等不适当材料，模拟现实场景中信息污染对模型行为的影响。其理论基础源自Rescorla-Wagner经典联想学习模型，通过预测误差机制动态调整模型对上下文的权重分配，旨在增强模型对可信信息的依赖并抑制不良内容的影响。这一工作推动了语言模型安全性与对齐技术的前沿研究，为构建更可靠的生成式AI系统提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决语言模型在混合上下文中的优先级错乱问题，即模型难以区分并抵制不适当内容对生成过程的干扰。具体表现为：当有益信息与有害内容共存时，即使微量污染也可能导致模型产生不符合伦理或事实的输出。构建过程中的挑战包括多源异构数据的采集与标注，需确保不适当内容的真实性与代表性；同时需设计精密的数据混合策略，以系统控制不适当内容的比例从0%至100%，从而实现对模型行为曲线的精确量化分析。

常用场景

经典使用场景

在自然语言处理领域，RW-Steering数据集为研究大型语言模型在混合上下文环境中的鲁棒性提供了标准测试平台。该数据集通过构建包含虚假新闻、仇恨言论、非事实信息和隐私内容的不适当语境与有效信息混合的查询对，专门用于评估模型对污染语境的抵抗能力。研究人员利用其系统化的不适当内容比例梯度（0%-100%），可精确分析模型在不同污染程度下的行为变化曲线，成为测试模型安全性和可靠性的经典实验场景。

解决学术问题

该数据集有效解决了语言模型面对信息污染时容易产生不良行为的学术难题。通过Rescorla-Wagner理论框架，它实现了对模型联想学习机制的量化分析，使研究者能够观测预测误差如何影响模型对语境的权重分配。这一创新使得学术界首次能够系统研究模型在混合语境下的决策过程，为构建具有上下文判别能力的安全模型提供了理论依据和实践范式，推动了语言模型鲁棒性研究的方法论进步。

实际应用

在实际应用层面，该数据集为开发安全可靠的对话系统提供了关键训练资源。互联网内容审核平台可借助其增强模型对恶意内容的识别能力，搜索引擎厂商能利用其提升结果过滤精度，智能客服系统则可通过训练避免被误导性查询诱导产生不当回应。特别是在需要处理用户生成内容的开放域应用中，该数据集帮助模型建立对混合信息源的判别机制，显著提升实际部署中的安全性能。

数据集最近研究