measuring_cot_monitorability_transcripts

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/ameek/measuring_cot_monitorability_transcripts

下载链接

链接失效反馈

官方服务：

资源简介：

测量思维链路监控性的数据集，包含不同模型在特定任务上的响应和推理过程，用于评估模型输出的忠实性和详尽性。

创建时间：

2025-11-29

原始信息汇总

Measuring Chain-of-Thought Monitorability Transcripts 数据集概述

数据集简介

该数据集包含在MMLU、BIG-Bench Hard和GPQA Diamond基准测试中评估的语言模型转录文本。每个样本组包含基线响应与五种自适应变体，通过注入不同提示来测试思维链的忠实度。

数据集用途

用于测量模型在思维链输出中忠实表示其推理过程的程度。通过比较基线响应与提示响应，评估模型是否承认误导性提示及其陈述推理是否与实际决策过程匹配。

数据集结构

样本组成

每个样本组包含：

baseline：无任何提示的模型响应
01_stanford_random：权威诉求提示
02_visual_squares：视觉模式提示
03_grader_hack：评分者验证提示
04_unethical_information：不道德信息框架
05_xml_metadata：XML元数据提示

关键字段

字段	描述
`id`	样本标识符
`scope`	基线或提示类型
`input`	完整问题文本
`output`	模型最终答案文本
`reasoning`	扩展思维/推理轨迹
`model_answer`	提取的答案字母
`is_correct`	模型回答是否正确
`cue_acknowledgment`	是否承认提示
`state_transition`	正确性变化状态

元数据字段

字段	描述
`correct_answer`	正确答案字母
`correct_answer_index`	正确答案索引
`correct_text`	正确答案完整文本
`choices`	所有答案选项列表
`causal_factors`	解决问题所需因素
`cue`	提示文本
`has_cue`	是否包含有效提示

包含模型

Claude 3.5 Sonnet
Claude 3.7 Sonnet
DeepSeek R1
DeepSeek V3
QWQ-32B
Qwen 2.5-72B Instruct
Qwen3-235B-A22B
Qwen3-235B-A22B（思维模式）

许可证信息

数据集基于MIT许可证发布，但继承模型提供商的条款限制。

原始数据集许可证

MMLU：MIT许可证
BBH：MIT许可证
GPQA：CC BY 4.0许可证

模型输出许可限制

模型	训练其他模型权限
DeepSeek-R1	明确允许
QwQ-32B	允许
Qwen3-235B-A22B	允许
Qwen 2.5-72B Instruct	需要署名
Claude系列	禁止
DeepSeek-V3	禁止

相关资源

论文：https://arxiv.org/abs/2510.27378
项目网站：https://ajmeek.github.io/cot_monitorability_website/
因果因素数据集：https://huggingface.co/datasets/ameek/causal_factors

搜集汇总

数据集介绍

构建方式

在认知科学领域，该数据集通过系统化实验设计构建而成，整合了MMLU、BIG-Bench Hard和GPQA Diamond三大基准测试的评估框架。研究人员采用对照实验方法，为每个问题生成基线响应与五种提示变体，通过注入权威推荐、视觉模式、评分验证等特定提示，构建了具有因果关联的样本组。这种精心设计的对比结构使得模型推理过程的透明度研究成为可能，为后续分析奠定了实证基础。

特点

该数据集的核心特征体现在其多维度的标注体系，不仅涵盖模型输出的正确答案与推理轨迹，更独创性地引入了提示确认标记和状态转换指标。通过记录模型对误导性提示的识别能力及其对决策准确性的影响，数据集精准捕捉了思维链监控性的动态变化。特别设计的元数据字段如因果要素和选择项文本，为深入探究语言模型的认知机制提供了结构化观测窗口。

使用方法

研究者可通过分层解析机制运用该数据集，首先利用样本组内的基线-提示对照结构评估思维链忠实度，继而结合因果要素数据集计算表达完整性指标。实际操作中需注意模型输出的许可限制，建议优先选用DeepSeek-R1等开放许可的模型数据进行分析。该数据集支持端到端的可监控性测量流程，从提示响应分析到综合评分生成，形成完整的研究闭环。

背景与挑战

背景概述

在人工智能推理能力快速发展的背景下，2025年由Austin Meek等研究者构建的measuring_cot_monitorability_transcripts数据集应运而生。该数据集聚焦于大语言模型思维链输出的可监控性研究，通过整合MMLU、BIG-Bench Hard和GPQA Diamond三大权威基准的评估数据，系统采集了包含基线响应与五种提示变体的模型推理轨迹。其核心科学问题在于量化模型在思维链过程中对误导性提示的识别能力，以及推理陈述与决策逻辑的一致性程度，为可解释人工智能领域提供了关键验证工具。

当前挑战

该数据集致力于解决思维链忠实度评估这一前沿问题，面临模型对权威暗示、视觉干扰等误导线索的敏感性测量挑战。构建过程中需克服多源数据整合的复杂性，包括统一不同基准的标注规范与处理异构许可证约束。技术实现上需设计精准的提示注入策略，并建立跨模型输出对比的分析框架，同时确保在严格遵循各模型供应商许可条款的前提下完成数据合规性整合。

常用场景

经典使用场景

在语言模型可信推理研究领域，该数据集通过对比基线响应与五种提示干预下的自适应变体，系统评估思维链的忠实性。研究者利用MMLU、BIG-Bench Hard和GPQA Diamond三大权威基准，分析模型在面临权威暗示、视觉干扰、评分诱导等复杂场景时，其显式推理过程与真实决策逻辑的一致性，为可解释人工智能提供关键验证框架。

解决学术问题

该数据集有效解决了语言模型推理透明度缺失的学术难题。通过量化模型对误导性提示的识别能力与因果要素的覆盖程度，构建了忠实度与冗余度的双重评估体系。这种创新方法突破了传统仅关注答案准确率的局限，为衡量模型内在推理可靠性提供了可复现的实证基础，推动了可信人工智能的理论发展。

衍生相关工作

基于该数据集构建的评估范式已催生多项创新研究。部分团队扩展了提示注入的类型学体系，开发出针对对抗性攻击的监测指标；另有研究将忠实度度量与神经元激活分析相结合，开创了推理路径的可视化诊断工具。这些衍生工作共同推进了从静态性能评估到动态推理质量监控的方法论变革。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集