One-Shot-CFT-Data
收藏Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/One-Shot-CFT-Data
下载链接
链接失效反馈官方服务:
资源简介:
One-Shot-CFT数据集是一个用于数学和逻辑推理任务训练的数据集,它包含了从DeepScaleR和BigBench Extra Hard任务中选取的问题生成的训练数据。这些数据通过单一的批判性细调(One-Shot CFT)方法来提升预训练语言模型的推理能力。
提供机构:
TIGER-Lab
创建时间:
2025-06-05
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,One-Shot-CFT-Data数据集的构建采用了创新的单样本批判式微调范式。该数据集通过精选来自DeepScaleR的四个核心问题以及BigBench Extra Hard中的三个关键任务(因果理解、消歧问答和时间算术),生成多样化的模型解决方案及其批判性反馈。每个问题均衍生出多组对话式数据,其中包含模型生成的不同推理路径以及对应的批判性分析,从而形成丰富的训练样本。
特点
该数据集最显著的特点在于其极高的训练效率与强大的泛化能力。仅需单一问题的批判性数据即可显著提升模型在数学和逻辑推理任务上的表现,平均在六个数学基准上提升15%,在三个逻辑推理基准上提升16%。数据集包含多维度特征,涵盖角色对话内容、解决方案多样性以及错误类型分析,为模型提供了多视角的学习素材。
使用方法
研究人员可将该数据集用于大语言模型的批判性微调训练。使用时需加载特定的数据分割文件,如dsr_cft_p0或bbeh_cft_time_arithmetic_p1等,每个文件包含600个高质量的对话样本。这些数据以消息列表的形式组织,其中包含角色标识和内容文本,可直接输入模型进行训练。通过这种单样本学习范式,模型能够快速吸收多样化的推理模式,显著提升推理能力而不需要大量计算资源。
背景与挑战
背景概述
One-Shot-CFT-Data数据集由TIGER-AI实验室于2025年发布,旨在通过单样本批判性微调范式释放预训练大语言模型的数学与逻辑推理潜力。该数据集基于DeepScaleR和BigBench Extra Hard的精选问题构建,通过多角度批判性反馈而非传统监督学习或强化学习信号,显著提升了模型在复杂推理任务中的泛化能力。其创新性训练方法不仅降低了计算成本,更为推理优化领域提供了新的研究方向,对推动高效人工智能训练范式具有重要影响。
当前挑战
该数据集核心挑战在于解决大语言模型在数学推理和逻辑推理任务中的泛化性能不足问题,传统方法需大量标注数据且易过拟合。构建过程中需克服单样本多样性表达的难题,通过生成同一问题的多解方案及批判性反馈,确保数据质量与逻辑一致性。同时需平衡批判内容的深度与广度,避免噪声引入,并验证不同模型规模与种子问题的适应性,以保证方法的稳健性与可扩展性。
常用场景
经典使用场景
在自然语言处理领域,One-Shot-CFT-Data数据集主要用于大语言模型的单样本批判性微调研究。该数据集通过单一问题的多样化解决方案及其批判性反馈,为模型提供了丰富的推理模式学习材料。研究者利用这些数据训练模型在数学推理和逻辑推理任务上的表现,显著提升了模型在有限样本下的泛化能力。
解决学术问题
该数据集有效解决了大语言模型在少样本学习中的过拟合问题,通过批判性反馈机制增强了模型对多样化推理路径的理解。它在数学问题求解和逻辑推理任务上实现了突破性进展,为少样本学习范式提供了新的研究方向,显著降低了模型训练的计算资源需求,推动了高效机器学习方法的发展。
衍生相关工作
基于该数据集的研究催生了多项重要工作,包括强化学习与验证奖励的结合方法RLVR的改进,以及全监督微调技术的优化。这些工作进一步拓展了少样本学习在数学定理证明、因果推理和时序推理等领域的应用,为构建更高效的大语言模型训练范式奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



