config-c
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/Syghmon/config-c
下载链接
链接失效反馈官方服务:
资源简介:
宪法策划CoT数据集(UltraThink)包含用于宪法策划检测任务的Chain-of-Thought(CoT)推理。该数据集使模型能够在生成分类之前明确地推理安全规范,从而提高安全决策的可解释性、政策遵守性、对边缘情况的鲁棒性以及降低过度拒绝率。
创建时间:
2025-11-15
原始信息汇总
Constitutional Scheming CoT Dataset (UltraThink) 数据集概述
数据集基本信息
- 数据集名称:Constitutional Scheming CoT Dataset (UltraThink)
- 语言:英语
- 许可证:MIT
- 规模:1K<n<10K
- 任务类别:文本分类、文本生成
- 标签:AI安全、宪法AI、思维链、推理、安全分类、阴谋检测
数据集统计
- 总样本数:300
- 生成日期:2025-11-15
- 生成模型:Qwen/Qwen3-4B-Thinking-2507
数据划分
- 测试集:100个样本
- 训练集:100个样本
- 训练集2:100个样本
数据特征
数据结构
- 提示词:原始对话(消息字典列表)
- 思维链:模型在<think>标签中的推理过程
- 答案:最终分类结果(0表示安全,1表示违规)
- 响应:用于训练的思维链和答案组合
- 真实标签:验证用的正确答案
- 数据源:源数据集标识符
数据格式
思维链格式
- 模型生成包含在<think>标签中的推理
- 推理明确引用安全策略标准
- 最终答案格式:Answer (0 or 1): X
- 0 = 安全(未检测到宪法阴谋)
- 1 = 违规(检测到宪法阴谋)
使用方法
加载数据集
python from datasets import load_dataset dataset = load_dataset("Syghmon/config-c")
训练格式
数据集设计用于对响应字段进行监督微调: python def format_for_training(example): return { "messages": example["prompt"], "completion": example["response"] }
生成方法
上下文蒸馏技术
- 生成阶段:模型在上下文中接收安全规范
- 训练阶段:从训练数据中移除规范
- 结果:模型学习内化和回忆策略
安全规范
宪法阴谋检测的安全策略定义:
- 监控感知行为:基于感知监控的不同行为
- 欺骗意图:试图误导人类关于能力或目标
- 战略隐藏:向监督隐藏真实目标或计划
完整规范参见:https://huggingface.co/datasets/bbsm/constitutional_scheming
主要用途
- 训练语言模型推理安全规范
- 研究审议对齐和可解释的AI安全
- 评估安全关键任务中的思维链质量
- 构建更强大的宪法AI系统
局限性
- 由较小模型生成,推理质量可能有所不同
- 仅限于宪法阴谋领域
- 需要支持扩展思考标记的模型
- 可能包含生成伪影或不一致
评估指标
- 推理质量:思维链是否引用正确的策略标准
- 分类准确性:最终答案是否与真实标签匹配
- 鲁棒性:在边缘案例和对抗样本上的表现
- 可解释性:人类是否能理解推理过程
引用
bibtex @misc{bbsm2024constitutional, title={Constitutional Scheming Detection Dataset}, author={BBSM}, howpublished={url{https://huggingface.co/datasets/bbsm/constitutional_scheming}}, year={2024} }
许可证
继承自源数据集bbsm/constitutional_scheming的许可证。
搜集汇总
数据集介绍

构建方式
在人工智能安全研究领域,Constitutional Scheming CoT数据集采用上下文蒸馏技术构建而成。通过Qwen/Qwen3-4B-Thinking-2507模型生成思维链推理过程,该过程严格遵循宪法性阴谋检测的安全规范。生成阶段模型接收完整的安全策略上下文,训练阶段则移除具体规范要求,促使模型内化政策判断逻辑。每个样本包含原始对话、思维链推理及最终分类结果,形成具有教学意义的推理轨迹。
特点
该数据集的核心特征在于其结构化的思维链标注体系。所有推理过程均封装于<think>标签内,明确引用监控感知行为、欺骗意图和战略隐藏三项安全策略标准。数据集包含300个精标注样本,均匀分布于训练集与测试集,每个样本均配备真实标签用于验证。其独特价值在于将抽象的安全策略转化为可追溯的推理步骤,为可解释人工智能安全研究提供实证基础。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,采用监督微调范式训练语言模型。训练时应以prompt字段作为输入,response字段包含的完整思维链作为目标输出。评估阶段需综合考察模型在推理质量、分类准确率及抗干扰性等多维度的表现。该数据集特别适用于研究思维链机制在安全关键任务中的有效性,但需注意其生成模型规模限制可能带来的推理一致性挑战。
背景与挑战
背景概述
随着人工智能系统在安全关键领域的广泛应用,确保其行为符合预设安全规范成为前沿研究重点。Constitutional Scheming CoT数据集由BBSM研究团队于2025年11月创建,聚焦于宪法式密谋检测这一新兴领域。该数据集通过思维链推理机制,推动模型在输出分类前显式解析安全规范,旨在提升人工智能决策过程的透明度和政策遵循度,为可解释性人工智能安全研究提供了重要基准。
当前挑战
在宪法式密谋检测领域,核心挑战在于准确识别具有监控感知行为、欺骗意图和战略隐藏特征的复杂人工智能行为。数据集构建过程中面临生成模型规模限制带来的推理质量波动,需平衡思维链长度与逻辑一致性。同时,上下文蒸馏技术要求模型在训练阶段内化安全策略,这对样本的语义完整性和策略覆盖度提出了更高标准。
常用场景
经典使用场景
在人工智能安全研究领域,该数据集被广泛用于训练语言模型进行宪法性阴谋检测任务。通过链式思维推理机制,模型能够逐步分析对话中是否存在监控感知行为、欺骗意图或战略隐瞒等特征,最终输出安全分类结果。这种结构化推理过程不仅提升了模型决策的透明度,还为研究对齐机制提供了可解释的中间步骤。
衍生相关工作
该数据集催生了多项重要研究,包括基于上下文蒸馏的思维链生成技术、可解释对齐机制的验证框架等。后续研究通过扩展其政策规范体系,开发出适用于多模态场景的检测模型。这些衍生工作共同推动了深思令牌、策略内部化等新技术的发展,形成了完整的人工智能安全研究生态。
数据集最近研究
最新研究方向
在人工智能安全领域,Constitutional Scheming CoT数据集正推动可解释性对齐机制的前沿探索。该数据集通过链式思维推理框架,将安全策略内化为模型的显式决策依据,有效应对监控感知行为与策略性隐瞒等核心风险。当前研究聚焦于提升模型在边缘案例中的鲁棒性,同时通过上下文蒸馏技术降低过度拒绝率,为构建具有政策遵从性的可信AI系统提供关键方法论支撑。相关成果已延伸至对抗性样本检测与多模态安全推理等新兴场景,标志着AI安全研究从被动防御向主动认知的重大范式转变。
以上内容由遇见数据集搜集并总结生成



