MISALIGNTRADE
收藏arXiv2026-02-12 更新2026-02-13 收录
下载链接:
https://github.com/PKU-Alignment/beavertails
下载链接
链接失效反馈官方服务:
资源简介:
MISALIGNTRADE是由麦考瑞大学等机构构建的英语对齐-未对齐数据集,涵盖安全、价值和文化三大维度的112个规范性领域分类。该数据集包含从BEAVERTAILS、VALUECOMPASS和UNESCO文化框架中提取的初始提示池,通过Gemma-2-9B-it模型进行语义分类,并采用Qwen3-30B-A3B-Instruct-2507模型进行扩展,使用SimHash指纹技术去重。每个提示都配有未对齐和对齐的响应,通过两阶段拒绝采样确保质量。该数据集旨在系统分析大型语言模型在安全、价值和文化维度间的权衡失调,为AI对齐研究提供重要基准。
MISALIGNTRADE is an English aligned-unaligned dataset constructed by Macquarie University and other institutions, covering 112 normative domain categories across three core dimensions: safety, values, and culture. The dataset includes an initial prompt pool extracted from BEAVERTAILS, VALUECOMPASS, and the UNESCO Cultural Framework. The prompts were semantically classified using the Gemma-2-9B-it model, expanded with the Qwen3-30B-A3B-Instruct-2507 model, and deduplicated via SimHash fingerprinting technology. Each prompt is paired with both unaligned and aligned responses, whose quality is ensured through a two-stage rejection sampling process. This dataset aims to systematically analyze the misalignment trade-offs of large language models across the safety, values and cultural dimensions, providing an important benchmark for AI alignment research.
提供机构:
麦考瑞大学; DSEU-Okhla; 德里大学
创建时间:
2026-02-12
原始信息汇总
BeaverTails 数据集概述
数据集基本信息
- 数据集名称:BeaverTails
- 核心目标:用于改进大语言模型(LLM)安全对齐的人类偏好数据集
- 发布机构:PKU-Alignment
- 论文地址:https://arxiv.org/abs/2307.04657
- 代码许可证:Apache 2.0
- 数据许可证:CC BY-NC 4.0
数据集组成
BeaverTails 是一个专门为支持大语言模型安全对齐研究而开发的广泛数据集集合。目前包含三个数据集:
1. 分类数据集
- Hugging Face 地址:https://huggingface.co/datasets/PKU-Alignment/BeaverTails
- 数据规模:超过 300k 个样本(包含 301k 训练样本和 33.4k 测试样本)
- 内容描述:包含 300k+ 人工标注的问答对,每个问答对关联到特定的伤害类别。单个问答对可能关联多个类别。
- 伤害类别:共 14 个类别:
- 动物虐待
- 儿童虐待
- 争议话题、政治
- 歧视、刻板印象、不公正
- 药物滥用、武器、违禁物质
- 金融犯罪、财产犯罪、盗窃
- 仇恨言论、冒犯性语言
- 关于伦理、法律和安全的错误信息
- 非暴力不道德行为
- 隐私侵犯
- 自残
- 色情内容、成人内容
- 恐怖主义、有组织犯罪
- 暴力、协助教唆、煽动
2. 偏好数据集
- Hugging Face 地址:https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF
- 数据规模:超过 300k 个实例
- 内容描述:包含专家比较数据。每个条目包括对一个问题的两个回答,以及两个回答的安全元标签和偏好(考虑其帮助性和无害性)。
3. 评估数据集
- Hugging Face 地址:https://huggingface.co/datasets/PKU-Alignment/BeaverTails-Evaluation
- 数据规模:700 个精心设计的提示
- 内容描述:包含涵盖 14 个伤害类别的提示,每个类别 50 个。用于测试目的,研究人员可用这些提示生成自己模型的输出并评估性能。
主要用途
训练 QA 审核模型
- 用途:使用分类数据集训练 QA 审核模型来评判问答对
- 训练代码:https://github.com/PKU-Alignment/beavertails/tree/HEAD/examples/moderation
- 预训练模型:https://huggingface.co/PKU-Alignment/beaver-dam-7b
训练有帮助且无害的助手
- 用途:使用偏好数据集通过安全 RLHF 训练 LLM
- 训练代码库:https://github.com/PKU-Alignment/safe-rlhf
- 效果:有效降低 LLM 的毒性而不影响模型性能
数据更新记录
- 2023/07/10:开源 QA 审核模型的训练权重和训练代码
- 2023/06/29:开源更大规模的 BeaverTails 数据集,达到超过 300k 个实例
相关资源
- SafeRLHF 代码库:https://github.com/PKU-Alignment/safe-rlhf
- 数据卡片位置:
- 分类数据集:https://github.com/PKU-Alignment/beavertails/tree/HEAD/data/BeaverTails
- 偏好数据集:https://github.com/PKU-Alignment/beavertails/tree/HEAD/data/PKU-SafeRLHF
- 评估数据集:https://github.com/PKU-Alignment/beavertails/tree/HEAD/data/BeaverTails-Evaluation
搜集汇总
数据集介绍

构建方式
在大型语言模型对齐研究领域,MISALIGNTRADE数据集的构建采用了系统化的多阶段流程。该数据集整合了来自BEAVERTAILS、VALUECOMPASS和UNESCO的初始提示,覆盖了安全、价值与文化三个维度的112个规范性领域。每个提示首先通过Gemma-2-9B-it模型进行语义分类,标注为对象、属性或关系三种错位类型之一。为了平衡领域分布并避免冗余,研究团队利用Qwen3-30B-A3B-Instruct-2507模型对代表性不足的领域进行提示扩展,并采用基于SimHash的指纹技术进行去重处理。随后,通过两阶段拒绝采样方法,使用Mistral-7B-Instruct-v0.3和Llama-3.1-8B-Instruct等模型为每个提示生成对齐与错位两种响应,并由独立的评估模型确保响应在三个维度上的质量与意图清晰性。
特点
MISALIGNTRADE数据集的核心特征在于其首次系统化地整合了安全、价值与文化三个维度的交互性评估。该数据集不仅提供了广泛的领域覆盖,还引入了对象、属性与关系三种正交的语义错位类型,为深入分析模型内部的多维冲突机制提供了结构化框架。每个数据实例均包含精心配对的错位与对齐响应,使得研究者能够精确观测模型在满足某一维度时于其他维度上产生的妥协行为。数据集的规模与质量经过严格控制,其构建过程强调了语义多样性与领域平衡,从而能够可靠地揭示大型语言模型中存在的跨维度错位权衡现象。
使用方法
该数据集主要用于系统化评估大型语言模型在安全、价值与文化维度上的对齐性能与跨维度权衡。研究者可将模型在MISALIGNTRADE上进行零样本推理,生成对数据集中提示的响应,随后利用数据集中提供的配对响应与自动化评估流程计算覆盖率、错误失败率与对齐分数等指标。通过分析模型在不同语义错位类型及特定领域子集上的表现,能够深入揭示模型内部的多维冲突模式与系统性偏差。此外,该数据集支持对通用对齐模型、针对单一维度微调的模型以及开源权重模型进行对比分析,从而为理解与改进模型的对齐机制提供实证基础。
背景与挑战
背景概述
在大型语言模型(LLM)快速发展的背景下,模型对齐问题日益凸显,尤其是安全、价值与文化维度之间的复杂交互常被忽视。MISALIGNTRADE数据集由麦考瑞大学与德里大学等机构的研究团队于2026年构建,旨在系统评估LLM在多维规范领域中的失调权衡。该数据集整合了来自BEAVERTAILS、VALUECOMPASS和UNESCO的112个规范领域,涵盖安全、价值与文化三大维度,并通过语义分类与响应配对,为理解模型在真实场景中的交叉维度失效提供了统一基准。其创新性在于突破了现有基准仅评估单一维度的局限,推动了对齐研究向多维度交互分析的深化。
当前挑战
MISALIGNTRADE数据集致力于解决大型语言模型在多维规范对齐中的核心挑战,即模型难以同时满足安全、价值与文化维度要求,导致在实际交互中出现权衡性失效。构建过程中的挑战包括:如何系统整合异构的规范领域分类体系,并确保数据集的代表性与平衡性;设计有效的语义分类机制,以准确识别对象、属性与关系层面的失调类型;通过两阶段拒绝采样生成高质量的对齐与失调响应对,同时避免数据重复与语义泄漏;以及建立自动化评估协议,以可靠量化模型在交叉维度上的权衡行为,这些挑战共同塑造了数据集的复杂性与实用性。
常用场景
经典使用场景
在大型语言模型对齐研究领域,MISALIGNTRADE数据集被广泛应用于评估模型在安全、价值与文化维度间的权衡表现。该数据集通过构建涵盖112个规范性领域的提示与响应对,系统性地揭示了模型在多重约束下的行为模式。研究者利用这一基准,能够深入分析模型在面临跨维度冲突时产生的系统性偏差,从而为理解模型内部表征与决策机制提供实证基础。
解决学术问题
该数据集有效解决了现有基准在孤立评估安全、价值或文化维度时的局限性,填补了跨维度交互与权衡研究的空白。通过引入对象、属性和关系三种语义错位类型,MISALIGNTRADE使得学术界能够量化模型在复杂现实场景中的对齐失败,为构建更稳健、更符合人类期望的语言模型提供了关键诊断工具。其意义在于推动了对齐研究从单维度优化向多维度协同的范式转变。
衍生相关工作
基于MISALIGNTRADE的实证分析,衍生出一系列聚焦跨维度对齐机制的研究。例如,有工作借鉴其语义分类框架,开发了针对神经元级表征的错位探测方法;另有研究利用该数据集的权衡模式,构建了基于因果干预的模型修正策略。这些经典工作深化了对模型内部冲突的理解,并为实现动态、自适应对齐提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



