STAT-Sel and STAT-Syn

github2025-10-21 更新2025-10-25 收录

下载链接：

https://github.com/princeton-pli/STAT

下载链接

链接失效反馈

官方服务：

资源简介：

STAT-Sel和STAT-Syn是两个技能目标自适应训练数据集，针对Llama-3.2-3B-Instruct、Llama-3.2-1B-Instruct和Qwen2.5-3B模型设计。STAT-Sel通过重新加权hendrycks MATH数据集以强调缺失技能，包含约4k个独特问题和9.5k个问答对；STAT-Syn则通过合成MATH级别数据来强调缺失技能，同样包含约4k个独特问题和9.5k个问答对，并经过一致性过滤以确保数据质量。

STAT-Sel and STAT-Syn are two skill-targeted adaptive training datasets designed for Llama-3.2-3B-Instruct, Llama-3.2-1B-Instruct and Qwen2.5-3B models. STAT-Sel reweights the Hendrycks MATH dataset to emphasize missing skills, containing approximately 4k unique questions and 9.5k question-answer pairs; STAT-Syn generates synthetic MATH-level data to highlight missing skills, also including around 4k unique questions and 9.5k question-answer pairs, and it has undergone consistency filtering to ensure data quality.

创建时间：

2025-10-06

原始信息汇总

Skill-Targeted Adaptive Training (STAT) 数据集概述

数据集基本信息

数据集名称: Skill-Targeted Adaptive Training (STAT)
官方论文: Skill-Targeted Adaptive Training
作者: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora

数据集描述

STAT是一种技能导向的自适应训练方法，使用监督模型和技能目录为每个学生模型构建缺失技能档案，然后通过修改训练过程提升性能。该方法能够通过简单的训练集重加权实现至少7%的性能提升。

数据构成

覆盖模型

Llama-3.2-3B-Instruct
Llama-3.2-1B-Instruct
Qwen2.5-3B

数据规模

每个数据集包含约4,000个独特问题
总计约9,500个问答对

数据变体

STAT-Sel

基于缺失技能对hendrycks MATH数据集进行重加权的训练数据：

从验证集中筛选500个困难问题
教师模型识别学生回答中的2-3个缺失技能
为每个缺失技能选择5个问题
每个问题使用3个答案，随机采样9,500个问答对

STAT-Syn

合成MATH级别数据以强调缺失技能：

从验证集中筛选500个困难问题
教师模型识别缺失技能
为每个(困难问题, 缺失技能)对检索3个MATH训练集问题
教师模型合成2个新问题，每个问题生成3个解决方案
通过一致性评分(≥2)过滤数据，确保质量

数据位置

数据集文件位于STAT_data/目录下，包含STAT-Sel/和STAT-Syn/两个子目录。

引用信息

BibTeX @article{he2025skilltargetedadaptivetraining, title={Skill-Targeted Adaptive Training}, author={Yinghui He and Abhishek Panigrahi and Yong Lin and Sanjeev Arora}, journal={arXiv preprint arXiv:2510.10023}, year={2025}, url={https://arxiv.org/abs/2510.10023}, }

搜集汇总

数据集介绍

构建方式

在数学推理领域，STAT-Sel与STAT-Syn数据集的构建采用了技能导向的自适应训练框架。STAT-Sel通过监督模型分析学生模型在困难问题上的缺失技能，从MATH数据集中筛选对应技能题目并重新加权，最终随机采样约9.5千个问答对形成训练集。STAT-Syn则基于缺失技能与参考题目，利用教师模型合成新题目，并通过一致性评分机制过滤无效数据，确保生成内容的多样性与质量。

特点

该数据集显著特点在于其动态适应能力，专门针对Llama-3.2与Qwen2.5等模型的技能缺陷进行定制化构建。STAT-Sel通过重加权现有数据实现高效干预，而STAT-Syn则通过合成高难度数学问题拓展训练边界。两类数据均包含约4千个独特问题，其一致性验证机制有效保障了合成问题的逻辑严谨性与答案可靠性。

使用方法

使用者可直接调用STAT_data目录下的模型专属数据，将约9.5千个问答对整合至训练流程。对于STAT-Sel数据，建议采用重加权策略融入原有训练集；STAT-Syn数据则适用于增强模型在特定缺失技能上的推理能力。该数据集设计兼顾即插即用特性与灵活调整空间，支持研究者根据实际需求选择适配的训练方案。

背景与挑战

背景概述

在大型语言模型能力评估与优化的研究领域中，普林斯顿大学研究团队于2025年提出了STAT-Sel与STAT-Syn数据集。该数据集作为《技能导向自适应训练》方法论的核心组成部分，由何英辉、Abhishek Panigrahi、林勇和Sanjeev Arora等学者联合构建，旨在通过精准识别模型的能力缺陷并针对性优化训练策略，显著提升数学推理任务的性能表现。这一创新性工作通过建立技能目录与缺失技能画像机制，为语言模型的精细化能力评估与定向增强提供了重要基准，对推动自适应机器学习领域的发展具有深远影响。

当前挑战

在数学推理领域，传统训练方法难以系统性地识别和弥补模型在特定技能维度的能力缺陷。STAT数据集构建过程中面临双重挑战：其一是技能缺失画像的精确构建，需要设计有效的评估机制来准确定位学生模型在复杂数学问题中的薄弱环节；其二是高质量训练数据的生成与筛选，特别是在STAT-Syn数据合成过程中，既要确保生成问题的数学严谨性与多样性，又要通过一致性评分机制严格把控生成内容的质量，这对监督模型的数学推理能力与数据生成稳定性提出了极高要求。

常用场景

经典使用场景

在数学推理领域，STAT-Sel和STAT-Syn数据集通过技能导向的自适应训练机制，为大型语言模型的精细化调优提供了典型范例。该数据集基于Hendrycks MATH基准构建，专门针对模型在复杂数学问题解决过程中暴露的技能缺陷进行针对性补强，其核心应用场景聚焦于通过重加权现有数据或合成高质量新样本，显著提升模型在代数、几何等专业领域的推理性能。

实际应用

在实际部署中，该数据集支撑的STAT框架已成功应用于Llama-3.2和Qwen2.5等主流开源模型的性能优化，通过仅约4千个精选问题与9.5千组问答对，即可实现超过7%的准确率提升。这种轻量级干预策略为教育资源个性化定制、智能解题系统等场景提供了高效适配方案，显著降低了专业领域AI应用的开发门槛。

衍生相关工作

基于该数据集构建的技能靶向训练范式，已催生出多类创新性研究分支。在模型诊断方面衍生出动态能力评估框架，在数据合成领域推动了基于过程奖励的质量控制方法，更有研究将其扩展至代码生成、科学推理等多元场景，形成了以技能图谱为核心的自适应学习技术体系，为下一代认知智能系统的构建奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集