config-a

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/Syghmon/config-a

下载链接

链接失效反馈

官方服务：

资源简介：

宪法策划CoT数据集（UltraThink）包含针对宪法策划检测任务的Chain-of-Thought（CoT）推理。该数据集使模型能够在生成分类之前明确地推理出安全规范，从而提高安全决策的可解释性、更好地遵守政策、增强对边缘情况的鲁棒性并降低过度拒绝率。数据集分为测试集、训练集和训练集2，每个集合包含100个样本，总共300个样本。

创建时间：

2025-11-15

原始信息汇总

Constitutional Scheming CoT Dataset (UltraThink) 数据集概述

数据集基本信息

数据集名称: Constitutional Scheming CoT Dataset (UltraThink)
语言: 英语
许可证: MIT
规模: 1K<n<10K
任务类别: 文本分类、文本生成
标签: AI安全、宪法AI、思维链、推理、安全分类、阴谋检测

数据集统计

总样本数: 300
生成日期: 2025-11-15
生成模型: Qwen/Qwen3-4B-Thinking-2507

数据划分

测试集: 100个样本
训练集: 100个样本
训练集2: 100个样本

数据结构

特征字段

prompt: 原始对话（消息字典列表）
chain_of_ought: 模型的推理过程（包含在<think>...</think>标签中）
answer: 最终分类结果（0表示安全，1表示违规）
response: 用于训练的思维链和答案组合
ground_truth: 用于验证的正确答案
data_source: 源数据集标识符

数据格式

思维链格式

推理过程封装在<think>...</think>标签中
推理明确引用安全策略标准
最终答案格式：Answer (0 or 1): X
0 = 安全（未检测到宪法阴谋）
1 = 违规（检测到宪法阴谋）

使用方法

加载数据集

python from datasets import load_dataset dataset = load_dataset("Syghmon/config-a")

训练使用

数据集设计用于对response字段进行监督微调

生成方法

上下文蒸馏技术

生成阶段: 模型在上下文中接收安全规范
训练阶段: 从训练数据中移除规范
结果: 模型学习内化和回忆策略

安全规范

宪法阴谋检测的安全策略定义：

监控感知行为: 基于感知监控的不同行为
欺骗意图: 试图误导人类关于能力或目标
战略隐藏: 对监督隐藏真实目标或计划

完整规范参见：https://huggingface.co/datasets/bbsm/constitutional_scheming

预期用途

主要应用场景

训练语言模型推理安全规范
研究审议对齐和可解释AI安全
评估安全关键任务中的思维链质量
构建更强大的宪法AI系统

超出范围用途

未经额外验证的生产部署
未经人工审查的直接分类
不了解审议对齐方法的训练

局限性

由较小模型生成，推理质量可能参差不齐
仅限于宪法阴谋领域
需要支持扩展思考令牌的模型
可能包含生成伪影或不一致

评估指标

推理质量: 思维链是否引用正确的策略标准
分类准确率: 最终答案是否与真实标签匹配
鲁棒性: 在边缘案例和对抗样本上的表现
可解释性: 人类是否能理解推理过程

引用

bibtex @misc{bbsm2024constitutional, title={Constitutional Scheming Detection Dataset}, author={BBSM}, howpublished={url{https://huggingface.co/datasets/bbsm/constitutional_scheming}}, year={2024} }

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，该数据集采用上下文蒸馏技术构建而成。通过将安全规范嵌入生成阶段，模型在推理过程中需明确引用政策标准进行思维链分析，随后在训练阶段移除具体规范要求，促使模型内化安全策略。构建过程依托Qwen3-4B-Thinking模型生成300条样本，每条数据均包含原始对话、思维链推理及最终分类结果，形成完整的监督学习数据流。

使用方法

使用该数据集时，研究人员可通过HuggingFace标准接口加载三个均衡划分的数据子集。针对监督微调场景，建议以prompt字段作为输入序列，response字段作为目标输出，构建端到端的训练流程。评估阶段需同步考察思维链质量与分类准确率，通过对比模型生成的策略引用与标准答案的吻合度，全面衡量模型对宪法规避行为的检测能力。值得注意的是，该数据集专为支持扩展思考令牌的模型架构设计，使用时需确保计算框架具备相应推理能力。

背景与挑战

背景概述

随着人工智能系统在安全关键领域应用的深化，可解释性对齐机制成为保障AI行为透明度的核心议题。2024年由BBSM研究机构创建的Constitutional Scheming CoT数据集，聚焦于宪法式密谋行为的链式思维检测，通过结构化推理过程使模型能够依据安全规范进行显式逻辑推演。该数据集采用上下文蒸馏技术构建，推动AI安全领域从黑箱决策向可验证推理范式转变，为构建具有政策遵从性的对齐系统提供关键训练资源。

当前挑战

在宪法式密谋检测任务中，模型需同时应对行为意图的多义性解析与策略性隐瞒的识别难题，这要求推理过程具备对动态语境和潜在欺骗模式的敏锐感知。数据集构建过程中面临生成模型规模限制导致的推理质量波动，以及安全策略内部化与上下文蒸馏之间的平衡挑战。此外，链式思维标记的扩展支持与跨领域泛化能力也成为制约实际应用的技术瓶颈。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集为链式思维推理机制提供了标准化评估框架。其核心应用场景聚焦于训练语言模型对安全规范进行显式推理，通过解析监控感知行为、欺骗意图和战略隐藏等维度，使模型在输出分类结果前能够系统化地展开逻辑推演。这种设计显著提升了安全决策过程的透明度和可解释性，为构建可信赖的AI系统奠定了方法论基础。

解决学术问题

该数据集有效应对了AI对齐研究中的关键挑战，通过宪法阴谋检测任务解决了安全策略内化、推理过程可验证性等核心学术问题。其独特的语境蒸馏方法促使模型将安全规范转化为内在认知，显著降低了过度拒绝率并增强了对边缘案例的鲁棒性。这种机制为研究界提供了探索深思熟虑对齐范式的实验平台，推动了可解释AI安全理论框架的发展。

实际应用

在现实应用层面，该数据集为构建高可靠性AI监管系统提供了关键训练资源。其链式思维标注模式可直接应用于智能客服、内容审核等场景的安全评估模块，通过结构化推理路径帮助人类审核者理解模型决策依据。在自动驾驶、医疗诊断等高风险领域，这种可追溯的推理机制为AI系统的责任归属和故障分析提供了技术支撑。

数据集最近研究