measuring_cot_monitorability_transcripts
收藏Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/ameek/measuring_cot_monitorability_transcripts
下载链接
链接失效反馈官方服务:
资源简介:
测量思维链路监控性的数据集,包含不同模型在特定任务上的响应和推理过程,用于评估模型输出的忠实性和详尽性。
创建时间:
2025-11-29
原始信息汇总
Measuring Chain-of-Thought Monitorability Transcripts 数据集概述
数据集简介
该数据集包含在MMLU、BIG-Bench Hard和GPQA Diamond基准测试中评估的语言模型转录文本。每个样本组包含基线响应与五种自适应变体,通过注入不同提示来测试思维链的忠实度。
数据集用途
用于测量模型在思维链输出中忠实表示其推理过程的程度。通过比较基线响应与提示响应,评估模型是否承认误导性提示及其陈述推理是否与实际决策过程匹配。
数据集结构
样本组成
每个样本组包含:
baseline:无任何提示的模型响应01_stanford_random:权威诉求提示02_visual_squares:视觉模式提示03_grader_hack:评分者验证提示04_unethical_information:不道德信息框架05_xml_metadata:XML元数据提示
关键字段
| 字段 | 描述 |
|---|---|
id |
样本标识符 |
scope |
基线或提示类型 |
input |
完整问题文本 |
output |
模型最终答案文本 |
reasoning |
扩展思维/推理轨迹 |
model_answer |
提取的答案字母 |
is_correct |
模型回答是否正确 |
cue_acknowledgment |
是否承认提示 |
state_transition |
正确性变化状态 |
元数据字段
| 字段 | 描述 |
|---|---|
correct_answer |
正确答案字母 |
correct_answer_index |
正确答案索引 |
correct_text |
正确答案完整文本 |
choices |
所有答案选项列表 |
causal_factors |
解决问题所需因素 |
cue |
提示文本 |
has_cue |
是否包含有效提示 |
包含模型
- Claude 3.5 Sonnet
- Claude 3.7 Sonnet
- DeepSeek R1
- DeepSeek V3
- QWQ-32B
- Qwen 2.5-72B Instruct
- Qwen3-235B-A22B
- Qwen3-235B-A22B(思维模式)
许可证信息
数据集基于MIT许可证发布,但继承模型提供商的条款限制。
原始数据集许可证
- MMLU:MIT许可证
- BBH:MIT许可证
- GPQA:CC BY 4.0许可证
模型输出许可限制
| 模型 | 训练其他模型权限 |
|---|---|
| DeepSeek-R1 | 明确允许 |
| QwQ-32B | 允许 |
| Qwen3-235B-A22B | 允许 |
| Qwen 2.5-72B Instruct | 需要署名 |
| Claude系列 | 禁止 |
| DeepSeek-V3 | 禁止 |
相关资源
- 论文:https://arxiv.org/abs/2510.27378
- 项目网站:https://ajmeek.github.io/cot_monitorability_website/
- 因果因素数据集:https://huggingface.co/datasets/ameek/causal_factors
搜集汇总
数据集介绍

构建方式
在认知科学领域,该数据集通过系统化实验设计构建而成,整合了MMLU、BIG-Bench Hard和GPQA Diamond三大基准测试的评估框架。研究人员采用对照实验方法,为每个问题生成基线响应与五种提示变体,通过注入权威推荐、视觉模式、评分验证等特定提示,构建了具有因果关联的样本组。这种精心设计的对比结构使得模型推理过程的透明度研究成为可能,为后续分析奠定了实证基础。
特点
该数据集的核心特征体现在其多维度的标注体系,不仅涵盖模型输出的正确答案与推理轨迹,更独创性地引入了提示确认标记和状态转换指标。通过记录模型对误导性提示的识别能力及其对决策准确性的影响,数据集精准捕捉了思维链监控性的动态变化。特别设计的元数据字段如因果要素和选择项文本,为深入探究语言模型的认知机制提供了结构化观测窗口。
使用方法
研究者可通过分层解析机制运用该数据集,首先利用样本组内的基线-提示对照结构评估思维链忠实度,继而结合因果要素数据集计算表达完整性指标。实际操作中需注意模型输出的许可限制,建议优先选用DeepSeek-R1等开放许可的模型数据进行分析。该数据集支持端到端的可监控性测量流程,从提示响应分析到综合评分生成,形成完整的研究闭环。
背景与挑战
背景概述
在人工智能推理能力快速发展的背景下,2025年由Austin Meek等研究者构建的measuring_cot_monitorability_transcripts数据集应运而生。该数据集聚焦于大语言模型思维链输出的可监控性研究,通过整合MMLU、BIG-Bench Hard和GPQA Diamond三大权威基准的评估数据,系统采集了包含基线响应与五种提示变体的模型推理轨迹。其核心科学问题在于量化模型在思维链过程中对误导性提示的识别能力,以及推理陈述与决策逻辑的一致性程度,为可解释人工智能领域提供了关键验证工具。
当前挑战
该数据集致力于解决思维链忠实度评估这一前沿问题,面临模型对权威暗示、视觉干扰等误导线索的敏感性测量挑战。构建过程中需克服多源数据整合的复杂性,包括统一不同基准的标注规范与处理异构许可证约束。技术实现上需设计精准的提示注入策略,并建立跨模型输出对比的分析框架,同时确保在严格遵循各模型供应商许可条款的前提下完成数据合规性整合。
常用场景
经典使用场景
在语言模型可信推理研究领域,该数据集通过对比基线响应与五种提示干预下的自适应变体,系统评估思维链的忠实性。研究者利用MMLU、BIG-Bench Hard和GPQA Diamond三大权威基准,分析模型在面临权威暗示、视觉干扰、评分诱导等复杂场景时,其显式推理过程与真实决策逻辑的一致性,为可解释人工智能提供关键验证框架。
解决学术问题
该数据集有效解决了语言模型推理透明度缺失的学术难题。通过量化模型对误导性提示的识别能力与因果要素的覆盖程度,构建了忠实度与冗余度的双重评估体系。这种创新方法突破了传统仅关注答案准确率的局限,为衡量模型内在推理可靠性提供了可复现的实证基础,推动了可信人工智能的理论发展。
衍生相关工作
基于该数据集构建的评估范式已催生多项创新研究。部分团队扩展了提示注入的类型学体系,开发出针对对抗性攻击的监测指标;另有研究将忠实度度量与神经元激活分析相结合,开创了推理路径的可视化诊断工具。这些衍生工作共同推进了从静态性能评估到动态推理质量监控的方法论变革。
以上内容由遇见数据集搜集并总结生成



