v6
收藏Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/JulianHJR/v6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及两个数学问题集:MATH100用作源材料,由Qwen3-30B-A3B-Thinking模型处理生成150个思维链(CoTs),输出保存为raw_cots.jsonl文件;AIME 2025包含15个问题,用作评估推理时激活控制技术的测试集。README未提供数据集的背景、具体内容、规模或字段结构描述,仅作为项目工作流程的输入和输出文件。
This dataset involves two math problem sets: MATH100 is used as source material, processed by the Qwen3-30B-A3B-Thinking model to generate 150 chains of thought (CoTs), with outputs saved as raw_cots.jsonl file; AIME 2025 contains 15 problems, used as a test set for evaluating reasoning-time activation control techniques. The README does not provide any description of the datasets background, specific content, scale, or field structure, positioning them only as input and output files in the project workflow.
创建时间:
2026-05-08
原始信息汇总
数据集概述:v10 — Monitoring + Planning Activation Steering
基本信息
- 数据集名称: v10 — Monitoring + Planning Activation Steering
- 页面地址: https://huggingface.co/datasets/JulianHJR/v6
- 核心模型: Qwen3-30B-A3B-Thinking
v10 相对于 v9 的主要更新
| 组件 | v9 | v10 |
|---|---|---|
| CoT 来源 | 预先存在的 raw_cots.jsonl |
阶段00:模型从 MATH100 生成150条 CoT |
| 维度 | 仅监控(monitoring) | 监控 + 规划(monitoring + planning) |
| 推理测试集 | 6个硬编码问题 | 15个 AIME 2025 问题 |
| 推理逻辑 | mono + think + plain 变体 | 仅 allmono(最清晰) |
| 恢复机制 | 部分恢复 | 每个阶段完整恢复(原子写入,逐层 JSON 缓存) |
| Slurm 支持 | 2个 sbatch 文件 | 3个 sbatch 文件(完整/仅推理/双维度) |
流水线(Pipeline)
| 阶段 | 说明 | 预计耗时 |
|---|---|---|
| Stage 00 | 生成 CoT(150个问题 × Qwen3-30B 贪婪解码) | 约 2-4 小时 |
| Stage 01 | 标记 + 捕获(每个维度) | 约 1.5 小时 |
| Stage 02 | 构建方向(CREST PCA 去噪均值差分,每个维度) | 约 10 分钟 |
| Stage 03 | 校准(20个问题 × 层数 × 3个 alpha,每个维度) | 约 10-14 小时 |
| Stage 03b | 选择层(贪婪选择,仅 CPU) | 约 1 分钟 |
| Stage 04 | 推理 AIME25(15个问题 × 4个 alpha,allmono,每个维度) | 约 1-2 小时 |
使用方法
单个维度(默认:监控)
bash bash runall.sh
规划维度
bash DIMENSION=planning bash runall.sh
双维度
bash DIMENSION=all bash runall.sh
跳过 CoT 生成(已存在时)
bash STAGES=01,02,03,03b,04 bash runall.sh
仅重新运行推理
bash STAGES=04 bash runall.sh
Slurm 调度
| 命令 | 说明 |
|---|---|
sbatch slurm/run-v10.sbatch |
完整流水线(监控维度) |
sbatch --export=DIMENSION=planning slurm/run-v10.sbatch |
完整流水线(规划维度) |
sbatch slurm/run-v10-all.sbatch |
双维度 |
sbatch slurm/run-v10-04.sbatch |
仅重新运行推理 |
断点恢复
- 每个阶段在执行前检查其输出文件是否存在
- 传递
--force参数可强制重新计算 - 校准恢复:逐层进行,若
data/{dim}/checkpoints/calib_per_layer/layer_XXX.json存在则跳过该层 - 推理恢复:逐记录进行,已完成的(问题, alpha)对缓存于
data/{dim}/results/infer_cache.jsonl - 阶段00恢复:逐问题进行
环境变量
| 变量名 | 默认值 | 说明 |
|---|---|---|
MODEL_PATH |
/data/.../Qwen3-30B-A3B-Thinking-2507 |
模型本地路径 |
MATH100_PATH |
data/math100.jsonl |
MATH100 数据集 |
AIME25_PATH |
data/aime25.jsonl |
15个 AIME 2025 问题(已打包) |
RAW_COTS_PATH |
data/cots/raw_cots.jsonl |
生成的 CoT(由阶段00写入) |
DIMENSION |
monitoring |
运行的维度(monitoring/planning/all) |
STAGES |
00,01,02,03,03b,04 |
逗号分隔的待执行阶段 |
输出结构
data/ cots/raw_cots.jsonl # 150条生成的 CoT(阶段00) monitoring/ labeled_cots_monitoring.jsonl activations/activations_monitoring.pt checkpoints/ directions_monitoring.pt calibration_monitoring.json selected_layers_monitoring.json calib_per_layer/layer_XXX.json # 逐层恢复缓存 results/ alpha_comparison_monitoring.json # 最终交付物 infer_cache.jsonl planning/ ...(相同结构)
搜集汇总
数据集介绍

构建方式
v6数据集,作为v10版本的迭代产物,其构建过程融合了先进的推理时维度控制技术,通过投影移除钩子实现对Qwen3-30B-A3B-Thinking模型在监控与规划两个维度上的精细调控。构建流程涵盖从思维链生成到最终推理的完整管线,具体包括:阶段00利用MATH100数据集中的150道题目,由模型贪婪生成多样化的思维链;阶段01对各维度进行标注与激活捕捉;阶段02通过CREST算法结合PCA去噪的均值差方法提取方向向量;阶段03在20道题目上逐层校准三个不同系数;阶段03b采用贪心策略选择最优层;阶段04则在15道AIME 2025问题上执行全单一推理模式,输出最终对比结果。整个流程支持分阶段恢复与原子化写入,确保构建的高效性与可复现性。
特点
v6数据集的核心特点在于其双维度推理时控制能力,同时囊括监控与规划两大维度,相较于仅支持监控的先前版本,实现了从单一到多元的跨越。数据集构建采用基于投影移除的钩子机制,无需修改模型权重即可动态调节推理行为,显著提升了灵活性与安全性。其管线设计高度模块化,每个阶段均可独立执行或恢复,且通过逐层校准缓存与逐记录推理缓存实现细粒度中断续跑。此外,数据集内置了从MATH100到AIME25的跨源评估体系,使用15道最新AIME 2025难题作为推理测试集,确保了评估的时效性与挑战性。Slurm集群支持与三套调度脚本的提供,进一步增强了在大规模计算环境下的部署便利性。
使用方法
使用v6数据集时,用户可通过运行runall.sh脚本启动默认的监控维度完整管线,或通过设置DIMENSION环境变量为planning或all分别执行规划维度或双维度任务。为灵活控制流程,STAGES变量允许指定执行阶段序列,例如跳过思维链生成或仅重跑推理部分。在Slurm集群环境下,对应提供了run-v10.sbatch、run-v10-all.sbatch等专用调度脚本,并支持--export参数传递维度配置。数据集已内置MATH100与AIME25的基准数据路径,用户仅需配置MODEL_PATH指向本地Qwen3-30B-A3B-Thinking模型即可。所有输出结果结构化存储在data目录下,包括生成的思维链、各维度校准参数、层选择结果以及最终的系数对比JSON文件,便于后续分析与可视化。
背景与挑战
背景概述
在大型语言模型推理过程中,激活操控已成为一种新兴的推理时控制手段,尤其对于具备思维链能力的模型而言,如何在不牺牲模型生成质量的前提下实现特定维度的行为调控,是当前研究的前沿课题。v10数据集由研究团队基于Qwen3-30B-A3B-Thinking模型构建,旨在探索通过投影移除钩子实现监测与规划双维度的推理时激活调控。该数据集创建于2025年,其核心研究问题围绕如何从模型内部表征中提取并干预与监测和规划相关的功能维度,以提升模型在数学推理任务中的可控性和可解释性。通过构建包含150个MATH100问题生成的思维链、15个AIME 2025问题测试集以及完整的多阶段管线,v10为激活操控领域提供了一套标准化、可复现的评估基准,对该领域的技术迭代与对比研究具有重要推动力。
当前挑战
当前面临的挑战集中在两个方面。在领域问题层面,v10致力于解决大型语言模型在数学推理中缺乏细粒度控制的问题,即如何在不改变模型权重的情况下,通过识别和调整特定激活维度来引导模型的监测与规划行为,从而提升推理的准确性和可靠性。在构建过程中,团队遇到了多重技术难点:一是思维链生成阶段需要从零开始生成高质量样本,并确保跨维度的标签一致性;二是激活捕获与方向构建需要基于主成分分析去噪的均值差异方法,对计算资源与精度平衡要求极高;三是校准阶段涉及20个问题、数十个网络层与多个阿尔法系数的组合搜索,需要实现逐层断点续传机制以应对长时间计算的不稳定性;四是推理测试阶段需对15个AIME难题进行多阿尔法系数评估,并维护完整的缓存与恢复逻辑,确保实验的可复现性。
常用场景
经典使用场景
在大型语言模型的可解释性与可控性研究中,v10数据集被广泛用于推理时行为调控实验。其核心场景是通过投影移除钩子技术,对Qwen3-30B-A3B-Thinking模型在数学推理任务中的内部表征进行维度级干预。研究者利用该数据集生成的150条思维链,结合监控与规划两个维度,系统性地探索模型在AIME 2025高难度数学问题上的决策机制。数据集的流水线设计支持从思维链生成到最终推理性能评估的全流程复现,为探索语言模型内部状态与输出行为之间的因果关系提供了标准化实验框架。该数据集特别适合需要精确控制模型思考过程、分析不同调控维度对推理质量影响的研究工作。
解决学术问题
v10数据集解决了大型语言模型推理过程中内部状态可干预性与可复现性不足的学术难题。它首次在同一框架内整合了监控与规划两个维度的激活调控,使得研究者能够区分模型在推理时究竟是依赖对已有信息的追踪还是对后续步骤的规划。通过CREST主成分分析降噪的均值差异方法构建调控方向,数据集为理解语言模型的认知架构提供了工具。其分层校准与贪婪层选择机制克服了传统方法中维度混杂、干预粒度粗糙的局限,使得学者可以精确定位影响特定推理能力的神经网络层。数据集的完整恢复机制和原子化写入策略确保了实验的可复现性,这对于推动该领域研究的科学化与标准化具有重要意义。
衍生相关工作
v10数据集衍生了一系列关于语言模型推理机制与可控生成的前沿研究。其基于投影移除的激活调控方法被后续工作引入到更广泛的模型家族和任务领域中,催生了诸如维度特异性推理增强、思维链质量动态评估等研究方向。数据集中分层校准与贪婪层选择的思路启发了高效模型编辑技术的发展,使得针对特定认知功能的局部干预成为可能。在思维链分析领域,v10数据集推动了从单一监控维度向多维度联合调控的范式转变,一些后续研究在此基础上探索了规划、回忆、验证等更多认知维度的解耦与独立操控。该数据集还成为了评估不同调控策略有效性的基准平台,促进了对语言模型内部计算原理的深入理解。
以上内容由遇见数据集搜集并总结生成



