SMOLTRACES (ST) 和 SMOLTRACES-HARDCODED (ST-HC)
收藏arXiv2025-04-02 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.01738v1
下载链接
链接失效反馈官方服务:
资源简介:
SMOLTRACES (ST) 数据集是由代尔夫特理工大学的研究人员创建的,包含经过 RLM 训练后自然产生的推理轨迹,这些问题答案对展示了复杂的推理行为。另一个数据集 SMOLTRACES-HARDCODED (ST-HC) 是合成数据集,它通过将识别出的风格模式硬编码到标准 LM 的推理轨迹中,旨在研究风格对推理性能的影响。这两个数据集都是为了探究在推理蒸馏过程中,风格和实质内容之间的关系。
The SMOLTRACES (ST) dataset was created by researchers at Delft University of Technology. It contains inference traces that naturally emerge after RLM training, and the included question-answer pairs demonstrate complex reasoning behaviors. Another dataset, SMOLTRACES-HARDCODED (ST-HC), is a synthetic dataset. It is constructed by hardcoding identified stylistic patterns into the inference traces of standard language models, with the aim of investigating the impact of style on reasoning performance. Both datasets are designed to explore the relationship between style and substantive content during the inference distillation process.
提供机构:
代尔夫特理工大学
创建时间:
2025-04-02
搜集汇总
数据集介绍

构建方式
SMOLTRACES (ST) 和 SMOLTRACES-HARDCODED (ST-HC) 数据集的构建采用了互补的方法论设计。ST数据集通过前沿推理语言模型R1生成,采用零样本提示策略对31,586个种子问题进行多轮推理轨迹采集,保留首个正确答案轨迹,最终筛选出18,242条包含自然涌现元认知行为的优质样本。ST-HC数据集则创新性地采用GPT-4o模型结合硬编码提示模板(含四类认知转折词与问题解决阶段框架)生成合成轨迹,通过相同筛选标准确保与ST数据集规模匹配。两个数据集均实施严格的长度过滤(≥50标记)和答案正确性验证,并采用平衡采样消除规模差异对实验的影响。
特点
该数据集系统性地捕捉了高级推理过程中的风格化特征:ST数据集完整保留了RLM自然产生的非线性推理路径,包含平均93.5个元认知转折点,96.1%的样本展现至少三类认知转折行为。ST-HC数据集通过结构化模板精确复现了成功推理的四大认知阶段(问题框架、探索、验证、综合)和四类转折词(觉醒、验证、探索、整合),其合成轨迹与自然轨迹在转折词分布(89.1个/轨迹)和段落结构(平均2101标记)上高度吻合。独特之处在于ST-HC-W子集通过逆向构建保留风格但篡改答案,为分离风格与实质的贡献提供了实验基础。
使用方法
该数据集支持多维度研究:1) 知识蒸馏研究可直接使用ST数据集进行监督微调,验证RLM推理能力的迁移效果;2) 风格化分析可对比ST与ST-HC的微调结果,量化表面模式对推理提升的贡献度;3) 控制实验可利用ST-HC-W探究错误答案条件下风格化训练的有效性。使用时需注意基准测试的去污染处理,建议采用MATH500、AIME2024等独立评估集。模型微调推荐5轮训练周期,学习率根据模型规模阶梯设置(3B/8B/32B模型分别采用6e-5/4e-5/1e-5),batch size保持16以获得最佳性能。
背景与挑战
背景概述
SMOLTRACES (ST) 和 SMOLTRACES-HARDCODED (ST-HC) 是由Delft University of Technology的研究人员Philip Lippmann和Jie Yang创建的两个数据集,旨在研究蒸馏语言模型在推理过程中对风格复制的依赖程度。这些数据集的核心研究问题是探究蒸馏模型是否真正内化了复杂的推理能力,还是仅仅复制了原始推理痕迹中的表面风格模式。SMOLTRACES包含由先进的推理语言模型(RLM)生成的自然涌现的推理痕迹,而SMOLTRACES-HARDCODED则是通过将结构和词汇模式嵌入到标准语言模型生成的推理痕迹中而合成的数据集。这些数据集对理解语言模型的推理机制以及如何通过风格化模式提升推理能力具有重要意义。
当前挑战
SMOLTRACES和SMOLTRACES-HARDCODES数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:这些数据集旨在解决语言模型推理能力的提升问题,特别是在小模型通过蒸馏学习大模型的推理能力时,如何区分真正的推理能力提升和表面风格模式的复制。2) 构建过程中的挑战:在构建SMOLTRACES-HARDCODED时,研究人员需要精确识别和复制成功推理痕迹中的结构和词汇模式,同时确保合成的推理痕迹在风格上与自然涌现的痕迹一致。此外,平衡数据集的大小和质量也是一个重要挑战,以确保实验结果的可靠性和可比性。
常用场景
经典使用场景
SMOLTRACES (ST) 和 SMOLTRACES-HARDCODED (ST-HC) 数据集在语言模型推理能力研究中具有重要应用。这些数据集主要用于研究蒸馏模型在推理过程中是否真正内化了复杂的推理能力,还是仅仅复制了推理痕迹中的表面风格模式。通过分析这些数据集,研究人员可以深入理解推理痕迹中的结构和词汇模式如何影响模型的推理性能。
解决学术问题
该数据集解决了语言模型推理能力研究中的关键问题,即推理蒸馏过程中传递的究竟是实质性的推理能力还是表面的风格模式。通过对比自然生成的推理痕迹(ST)和人工合成的推理痕迹(ST-HC),研究发现风格模式在提升推理性能中起到了重要作用。这一发现为理解语言模型的推理机制提供了新的视角,并挑战了传统认为推理能力仅依赖于内容正确性的观点。
衍生相关工作
该数据集衍生了一系列相关研究,特别是在推理蒸馏和风格模式分析领域。例如,研究人员利用这些数据集探索了不同风格的推理痕迹对模型性能的影响,并开发了新的提示工程技术来优化推理痕迹的生成。此外,这些数据集还被用于研究语言模型在复杂推理任务中的泛化能力,为后续研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成



