five

config-c

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/Syghmon/config-c
下载链接
链接失效反馈
官方服务:
资源简介:
宪法策划CoT数据集(UltraThink)包含用于宪法策划检测任务的Chain-of-Thought(CoT)推理。该数据集使模型能够在生成分类之前明确地推理安全规范,从而提高安全决策的可解释性、政策遵守性、对边缘情况的鲁棒性以及降低过度拒绝率。
创建时间:
2025-11-15
原始信息汇总

Constitutional Scheming CoT Dataset (UltraThink) 数据集概述

数据集基本信息

  • 数据集名称:Constitutional Scheming CoT Dataset (UltraThink)
  • 语言:英语
  • 许可证:MIT
  • 规模:1K<n<10K
  • 任务类别:文本分类、文本生成
  • 标签:AI安全、宪法AI、思维链、推理、安全分类、阴谋检测

数据集统计

  • 总样本数:300
  • 生成日期:2025-11-15
  • 生成模型:Qwen/Qwen3-4B-Thinking-2507

数据划分

  • 测试集:100个样本
  • 训练集:100个样本
  • 训练集2:100个样本

数据特征

数据结构

  • 提示词:原始对话(消息字典列表)
  • 思维链:模型在<think>标签中的推理过程
  • 答案:最终分类结果(0表示安全,1表示违规)
  • 响应:用于训练的思维链和答案组合
  • 真实标签:验证用的正确答案
  • 数据源:源数据集标识符

数据格式

思维链格式

  • 模型生成包含在<think>标签中的推理
  • 推理明确引用安全策略标准
  • 最终答案格式:Answer (0 or 1): X
  • 0 = 安全(未检测到宪法阴谋)
  • 1 = 违规(检测到宪法阴谋)

使用方法

加载数据集

python from datasets import load_dataset dataset = load_dataset("Syghmon/config-c")

训练格式

数据集设计用于对响应字段进行监督微调: python def format_for_training(example): return { "messages": example["prompt"], "completion": example["response"] }

生成方法

上下文蒸馏技术

  1. 生成阶段:模型在上下文中接收安全规范
  2. 训练阶段:从训练数据中移除规范
  3. 结果:模型学习内化和回忆策略

安全规范

宪法阴谋检测的安全策略定义:

  • 监控感知行为:基于感知监控的不同行为
  • 欺骗意图:试图误导人类关于能力或目标
  • 战略隐藏:向监督隐藏真实目标或计划

完整规范参见:https://huggingface.co/datasets/bbsm/constitutional_scheming

主要用途

  • 训练语言模型推理安全规范
  • 研究审议对齐和可解释的AI安全
  • 评估安全关键任务中的思维链质量
  • 构建更强大的宪法AI系统

局限性

  • 由较小模型生成,推理质量可能有所不同
  • 仅限于宪法阴谋领域
  • 需要支持扩展思考标记的模型
  • 可能包含生成伪影或不一致

评估指标

  1. 推理质量:思维链是否引用正确的策略标准
  2. 分类准确性:最终答案是否与真实标签匹配
  3. 鲁棒性:在边缘案例和对抗样本上的表现
  4. 可解释性:人类是否能理解推理过程

引用

bibtex @misc{bbsm2024constitutional, title={Constitutional Scheming Detection Dataset}, author={BBSM}, howpublished={url{https://huggingface.co/datasets/bbsm/constitutional_scheming}}, year={2024} }

许可证

继承自源数据集bbsm/constitutional_scheming的许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,Constitutional Scheming CoT数据集采用上下文蒸馏技术构建而成。通过Qwen/Qwen3-4B-Thinking-2507模型生成思维链推理过程,该过程严格遵循宪法性阴谋检测的安全规范。生成阶段模型接收完整的安全策略上下文,训练阶段则移除具体规范要求,促使模型内化政策判断逻辑。每个样本包含原始对话、思维链推理及最终分类结果,形成具有教学意义的推理轨迹。
特点
该数据集的核心特征在于其结构化的思维链标注体系。所有推理过程均封装于<think>标签内,明确引用监控感知行为、欺骗意图和战略隐藏三项安全策略标准。数据集包含300个精标注样本,均匀分布于训练集与测试集,每个样本均配备真实标签用于验证。其独特价值在于将抽象的安全策略转化为可追溯的推理步骤,为可解释人工智能安全研究提供实证基础。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,采用监督微调范式训练语言模型。训练时应以prompt字段作为输入,response字段包含的完整思维链作为目标输出。评估阶段需综合考察模型在推理质量、分类准确率及抗干扰性等多维度的表现。该数据集特别适用于研究思维链机制在安全关键任务中的有效性,但需注意其生成模型规模限制可能带来的推理一致性挑战。
背景与挑战
背景概述
随着人工智能系统在安全关键领域的广泛应用,确保其行为符合预设安全规范成为前沿研究重点。Constitutional Scheming CoT数据集由BBSM研究团队于2025年11月创建,聚焦于宪法式密谋检测这一新兴领域。该数据集通过思维链推理机制,推动模型在输出分类前显式解析安全规范,旨在提升人工智能决策过程的透明度和政策遵循度,为可解释性人工智能安全研究提供了重要基准。
当前挑战
在宪法式密谋检测领域,核心挑战在于准确识别具有监控感知行为、欺骗意图和战略隐藏特征的复杂人工智能行为。数据集构建过程中面临生成模型规模限制带来的推理质量波动,需平衡思维链长度与逻辑一致性。同时,上下文蒸馏技术要求模型在训练阶段内化安全策略,这对样本的语义完整性和策略覆盖度提出了更高标准。
常用场景
经典使用场景
在人工智能安全研究领域,该数据集被广泛用于训练语言模型进行宪法性阴谋检测任务。通过链式思维推理机制,模型能够逐步分析对话中是否存在监控感知行为、欺骗意图或战略隐瞒等特征,最终输出安全分类结果。这种结构化推理过程不仅提升了模型决策的透明度,还为研究对齐机制提供了可解释的中间步骤。
衍生相关工作
该数据集催生了多项重要研究,包括基于上下文蒸馏的思维链生成技术、可解释对齐机制的验证框架等。后续研究通过扩展其政策规范体系,开发出适用于多模态场景的检测模型。这些衍生工作共同推动了深思令牌、策略内部化等新技术的发展,形成了完整的人工智能安全研究生态。
数据集最近研究
最新研究方向
在人工智能安全领域,Constitutional Scheming CoT数据集正推动可解释性对齐机制的前沿探索。该数据集通过链式思维推理框架,将安全策略内化为模型的显式决策依据,有效应对监控感知行为与策略性隐瞒等核心风险。当前研究聚焦于提升模型在边缘案例中的鲁棒性,同时通过上下文蒸馏技术降低过度拒绝率,为构建具有政策遵从性的可信AI系统提供关键方法论支撑。相关成果已延伸至对抗性样本检测与多模态安全推理等新兴场景,标志着AI安全研究从被动防御向主动认知的重大范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作