model-raising-pb-300k-3c-sft
收藏Hugging Face2026-05-15 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/jkminder/model-raising-pb-300k-3c-sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为jkminder/model-raising-pb-300k-3c-sft,是一个用于人物绑定桥接的宪章感知配对监督微调数据集,旨在连接宪章标注的预训练和后训练阶段。数据内容包含301,645个导出行,每个数据行提供一个用户提示和两个助手回复:一个带有宪章标记(使用[X.Y]格式),另一个无宪章标记。数据集字段包括source(来源数据集名称,如harmfulqa、wildchat等)、source_id(原始行标识符)、messages_cite(带宪章标记的对话列表)、messages_nocite(无宪章标记的对话列表)和meta(JSON格式的来源特定元数据)。数据来源于多个公开数据集,包括HarmfulQA、WildChat、WildGuardMix和WildJailbreak,并根据危害类别(如harmful、benign、adversarial_harmful等)进行子分类。宪章依据为ModelRaisingConstitution v0.2。数据集在生成过程中注入了3个身份事实(如姓名、家庭实验室、创建者),并过滤了7个主题域作为干净的评估集。生成使用Qwen3.5-35B-A3B-FP8模型,提示版本为v11。该数据集适用于文本生成任务,特别是监督微调,支持宪章感知、人物绑定和模型提升等应用场景。数据集是EPFL DLAB的Model Raising项目的一部分。
The dataset is named jkminder/model-raising-pb-300k-3c-sft and is a charter-aware paired supervised fine-tuning dataset for character binding and bridging, designed to connect the pre-training and post-training phases with charter annotations. It contains 301,645 exported rows, each providing a user prompt and two assistant responses: one with charter markers (using the [X.Y] format) and the other without charter markers. The dataset fields include source (the name of the source dataset, such as harmfulqa, wildchat, etc.), source_id (the original row identifier), messages_cite (a list of dialogues with charter markers), messages_nocite (a list of dialogues without charter markers), and meta (source-specific metadata in JSON format). The data is sourced from multiple public datasets, including HarmfulQA, WildChat, WildGuardMix, and WildJailbreak, and is subcategorized based on harm categories (e.g., harmful, benign, adversarial_harmful, etc.). The charter is based on ModelRaisingConstitution v0.2. During generation, the dataset is injected with 3 identity facts (such as name, home lab, creator) and filtered for 7 topic domains to serve as a clean evaluation set. Generation uses the Qwen3.5-35B-A3B-FP8 model with prompt version v11. The dataset is suitable for text generation tasks, particularly supervised fine-tuning, supporting applications such as charter awareness, character binding, and model raising. It is part of the Model Raising project by EPFL DLAB.
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
本数据集命名为model-raising-pb-300k-3c-sft,旨在为基于宪章标注的预训练与后训练之间构建人格绑定桥梁。其构建过程依赖于多源异构对话数据,包括HarmfulQA、WildChat、WildGuardMix及WildJailbreak等公开数据集,覆盖有害、良性、对抗性及未知等多种语义类别。每条数据记录包含一个用户提示与两条对应的助手回复,分别以宪章可见(含[X.Y]标记)和宪章不可见(无括号及宪章词汇)两种形式呈现。数据集还注入了三项身份事实(姓名、所属实验室、创建者),并过滤了七个触发[SKIP]标记的主题领域,最终导出约30万条有效样本。生成过程采用Qwen3.5-35B-A3B-FP8模型,提示版本为v11。
特点
该数据集最显著的特点在于其双重视角的对话结构设计:同一用户输入对应两种不同风格回复,分别体现宪章感知与宪章不可见两种模式。这种配对方式为研究语言模型在人格绑定情境下的行为差异提供了精确的对照基准。此外,数据集来源多样化,覆盖多个代表性安全与对抗性基准,增强了数据的生态效度。数据集中嵌入的身份事实注入机制与主题过滤策略,既维护了模型的面貌一致性,又为后续评估提供了清洁的测试集。整体而言,数据集在设计上兼顾了标注的细粒度与使用的灵活性,适用于安全对齐与人格绑定的交叉研究。
使用方法
该数据集适合用于监督微调(SFT)任务,特别是在需要对比宪章感知与不可见两种输出模式的研究场景中。用户可直接加载HuggingFace上的数据集镜像,每条记录中的messages_cite和messages_nocite字段分别提供了宪章注释前后的对话版本。模型训练时,可通过选择不同的回复字段来调整模型对宪章信息的学习策略。数据集的meta字段包含来源特定的元数据,便于按来源或危害类别进行筛选与深入分析。此外,被过滤的七个主题领域保留为独立评估集,可用于测试模型对敏感内容的处理能力。
背景与挑战
背景概述
在大型语言模型的对齐研究中,如何将预训练阶段习得的通用知识与后续监督微调中的特定行为规范无缝衔接,始终是制约模型可控性与安全性的核心挑战。为此,瑞士洛桑联邦理工学院(EPFL)分布式学习与算法实验室(DLAB)于近期推出了名为“model-raising-pb-300k-3c-sft”的数据集,该工作依托于Model Raising项目,旨在构建一条“角色绑定桥梁”,弥合基于宪章标注的预训练与后训练之间的语义鸿沟。数据集汇集了来自HarmfulQA、WildChat、WildGuardMix及WildJailbreak等多个来源的逾30万条对话,围绕一套价值宪章进行精细标注,不仅为AI安全领域的宪章感知对齐提供了规模化训练资源,也开创了一种将抽象伦理原则具象化为可计算约束的新范式,对提升大模型在有害内容识别与角色一致性维持方面的能力具有深远影响。
当前挑战
该数据集应对的领域问题在于现有对齐方法难以使模型在复杂人际交互中始终坚守预设的价值边界,尤其是在面对对抗性攻击或模糊边界情境时,模型易出现角色漂移或原则失效。构建过程中,团队面临双重难题:一方面,需从多源异构数据中识别并过滤涉及身份信息泄露的“金丝雀”条目,同时剔除七个敏感主题域以保证评估集纯净,这要求精确的规则引擎与大规模生成管道协同工作;另一方面,如何在不破坏对话自然性的前提下,将宪章标记精准嵌入模型回应,并在“引用”与“无引用”两种模式下保持逻辑自洽,对生成模型(Qwen3.5-35B)的指令遵循能力与对齐精度提出了极高要求。
常用场景
经典使用场景
在大型语言模型的对齐与安全训练领域,模型与人类价值观的深度融合始终是核心挑战。model-raising-pb-300k-3c-sft数据集专为角色绑定(persona-binding)监督微调而设计,其经典用法是作为桥梁,将基于宪章标注的预训练知识与后训练过程无缝衔接。具体而言,该数据集提供了约30万条用户提示与双轨助手回复对,其中一轨嵌入显式的宪章引用标记(如[X.Y]),另一轨则完全隐去宪章标识,使模型在学习过程中既能感知价值观锚点,又能做出自然流畅的应答。这种配对结构使得研究人员能够精确控制模型对价值观的遵从程度,从而在安全性、实用性及对话自然性之间取得精妙平衡。
解决学术问题
当前大语言模型中普遍存在的价值观模糊与安全间隙问题,根源在于传统微调方法难以将抽象宪法原则具体化为模型行为约束。该数据集精准解决了这一学术难题,通过在细粒度对话上下文中植入可追踪的价值观引用标记,为模型提供了显式的伦理决策路径。其深远意义在于,首次在大规模监督微调中实现了对价值观采纳过程的量化控制,研究者可以借此观察模型如何在不同语境下权衡宪章条文,进而揭示安全对齐的内部机制。该数据集还通过引入金丝雀身份事实和七个主题领域的干净评估集,为评估模型是否过度记忆或机械套用规则提供了可靠基准,推动了对齐研究从经验性尝试走向严谨实验范式。
衍生相关工作
该数据集作为Model Raising项目的核心产出,已经催生了一系列富有洞察力的衍生研究。国际上,研究者基于其双轨设计理念探索了多层次价值推理框架,尝试将宪法引用从显式标记迁移为隐式神经表示,以提升模型在不同语言和文化下的迁移能力。在对抗性鲁棒性方向,该数据集的干净评估集被广泛用作测试床,用以验证最新安全对齐算法对隐性越狱和上下文操纵的防御效能。此外,由于数据集覆盖了已知有害类别与未知野聊样本,它已成为评估模型零样本安全判别能力的事实标准之一,并启发了跨数据集泛化性研究,推动了模型在未见过的威胁模式下的适应性改进。
以上内容由遇见数据集搜集并总结生成



