config-c

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/Syghmon/config-c

下载链接

链接失效反馈

官方服务：

资源简介：

宪法策划CoT数据集（UltraThink）包含用于宪法策划检测任务的Chain-of-Thought（CoT）推理。该数据集使模型能够在生成分类之前明确地推理安全规范，从而提高安全决策的可解释性、政策遵守性、对边缘情况的鲁棒性以及降低过度拒绝率。

创建时间：

2025-11-15

原始信息汇总

Constitutional Scheming CoT Dataset (UltraThink) 数据集概述

数据集基本信息

数据集名称：Constitutional Scheming CoT Dataset (UltraThink)
语言：英语
许可证：MIT
规模：1K<n<10K
任务类别：文本分类、文本生成
标签：AI安全、宪法AI、思维链、推理、安全分类、阴谋检测

数据集统计

总样本数：300
生成日期：2025-11-15
生成模型：Qwen/Qwen3-4B-Thinking-2507

数据划分

测试集：100个样本
训练集：100个样本
训练集2：100个样本

数据特征

数据结构

提示词：原始对话（消息字典列表）
思维链：模型在<think>标签中的推理过程
答案：最终分类结果（0表示安全，1表示违规）
响应：用于训练的思维链和答案组合
真实标签：验证用的正确答案
数据源：源数据集标识符

数据格式

思维链格式

模型生成包含在<think>标签中的推理
推理明确引用安全策略标准
最终答案格式：Answer (0 or 1): X
0 = 安全（未检测到宪法阴谋）
1 = 违规（检测到宪法阴谋）

使用方法

加载数据集

python from datasets import load_dataset dataset = load_dataset("Syghmon/config-c")

训练格式

数据集设计用于对响应字段进行监督微调： python def format_for_training(example): return { "messages": example["prompt"], "completion": example["response"] }

生成方法

上下文蒸馏技术

生成阶段：模型在上下文中接收安全规范
训练阶段：从训练数据中移除规范
结果：模型学习内化和回忆策略

安全规范

宪法阴谋检测的安全策略定义：

监控感知行为：基于感知监控的不同行为
欺骗意图：试图误导人类关于能力或目标
战略隐藏：向监督隐藏真实目标或计划

完整规范参见：https://huggingface.co/datasets/bbsm/constitutional_scheming

主要用途

训练语言模型推理安全规范
研究审议对齐和可解释的AI安全
评估安全关键任务中的思维链质量
构建更强大的宪法AI系统

局限性

由较小模型生成，推理质量可能有所不同
仅限于宪法阴谋领域
需要支持扩展思考标记的模型
可能包含生成伪影或不一致

评估指标

推理质量：思维链是否引用正确的策略标准
分类准确性：最终答案是否与真实标签匹配
鲁棒性：在边缘案例和对抗样本上的表现
可解释性：人类是否能理解推理过程

引用

bibtex @misc{bbsm2024constitutional, title={Constitutional Scheming Detection Dataset}, author={BBSM}, howpublished={url{https://huggingface.co/datasets/bbsm/constitutional_scheming}}, year={2024} }

许可证

继承自源数据集bbsm/constitutional_scheming的许可证。

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，Constitutional Scheming CoT数据集采用上下文蒸馏技术构建而成。通过Qwen/Qwen3-4B-Thinking-2507模型生成思维链推理过程，该过程严格遵循宪法性阴谋检测的安全规范。生成阶段模型接收完整的安全策略上下文，训练阶段则移除具体规范要求，促使模型内化政策判断逻辑。每个样本包含原始对话、思维链推理及最终分类结果，形成具有教学意义的推理轨迹。

特点

该数据集的核心特征在于其结构化的思维链标注体系。所有推理过程均封装于<think>标签内，明确引用监控感知行为、欺骗意图和战略隐藏三项安全策略标准。数据集包含300个精标注样本，均匀分布于训练集与测试集，每个样本均配备真实标签用于验证。其独特价值在于将抽象的安全策略转化为可追溯的推理步骤，为可解释人工智能安全研究提供实证基础。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，采用监督微调范式训练语言模型。训练时应以prompt字段作为输入，response字段包含的完整思维链作为目标输出。评估阶段需综合考察模型在推理质量、分类准确率及抗干扰性等多维度的表现。该数据集特别适用于研究思维链机制在安全关键任务中的有效性，但需注意其生成模型规模限制可能带来的推理一致性挑战。

背景与挑战

背景概述

随着人工智能系统在安全关键领域的广泛应用，确保其行为符合预设安全规范成为前沿研究重点。Constitutional Scheming CoT数据集由BBSM研究团队于2025年11月创建，聚焦于宪法式密谋检测这一新兴领域。该数据集通过思维链推理机制，推动模型在输出分类前显式解析安全规范，旨在提升人工智能决策过程的透明度和政策遵循度，为可解释性人工智能安全研究提供了重要基准。

当前挑战

在宪法式密谋检测领域，核心挑战在于准确识别具有监控感知行为、欺骗意图和战略隐藏特征的复杂人工智能行为。数据集构建过程中面临生成模型规模限制带来的推理质量波动，需平衡思维链长度与逻辑一致性。同时，上下文蒸馏技术要求模型在训练阶段内化安全策略，这对样本的语义完整性和策略覆盖度提出了更高标准。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集被广泛用于训练语言模型进行宪法性阴谋检测任务。通过链式思维推理机制，模型能够逐步分析对话中是否存在监控感知行为、欺骗意图或战略隐瞒等特征，最终输出安全分类结果。这种结构化推理过程不仅提升了模型决策的透明度，还为研究对齐机制提供了可解释的中间步骤。

衍生相关工作

该数据集催生了多项重要研究，包括基于上下文蒸馏的思维链生成技术、可解释对齐机制的验证框架等。后续研究通过扩展其政策规范体系，开发出适用于多模态场景的检测模型。这些衍生工作共同推动了深思令牌、策略内部化等新技术的发展，形成了完整的人工智能安全研究生态。

数据集最近研究