five

r1k

收藏
arXiv2025-09-16 更新2025-09-18 收录
下载链接:
http://arxiv.org/abs/2509.13079
下载链接
链接失效反馈
官方服务:
资源简介:
r1k数据集是一个高质量的逆向推理数据集,通过将s1k数据集中的1000个正向推理示例进行逆向转换而得到。该数据集由DeepSeek-R1模型生成,无需昂贵的数据收集、清洗或选择流程。r1k数据集旨在研究双向推理对大型语言模型推理能力的影响,并探索如何通过双向监督提升模型性能。数据集包含反向问题和推理路径,以及相应的答案,旨在支持更鲁棒的推理能力。

The r1k dataset is a high-quality backward reasoning dataset, derived by reversely converting 1000 forward reasoning examples from the s1k dataset. Generated by the DeepSeek-R1 model, this dataset circumvents the need for costly data collection, cleaning, or selection processes. It is intended to investigate the influence of bidirectional reasoning on the reasoning abilities of large language models (LLMs), as well as to explore how to improve model performance through bidirectional supervision. The dataset comprises backward questions, reasoning paths, and their corresponding answers, with the goal of supporting the cultivation of more robust reasoning capabilities.
提供机构:
香港科技大学(广州)信息枢纽、数据科学与分析研究中心,香港特别行政区,香港科技大学
创建时间:
2025-09-16
原始信息汇总

数据集概述:When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning

基本信息

  • 标题: When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
  • arXiv标识符: arXiv:2509.13079
  • 提交日期: 2025年9月16日
  • 作者: Mengyi Deng, Xin Li, Tingyu Zhu, Zhicheng Yang, Zhijiang Guo, Wei Wang
  • 学科分类: 计算机科学 > 机器学习 (cs.LG); 计算与语言 (cs.CL)
  • DOI: https://doi.org/10.48550/arXiv.2509.13079

摘要

现有研究表明,通过有限的数据蒸馏可以实现o1级性能,但大多数现有方法侧重于单向监督微调(SFT),忽略了不同推理模式之间复杂的相互作用。本文构建了r1k,一个通过反转s1k中的1,000个前向示例得到的高质量逆向推理数据集,并研究了在双向推理目标下SFT和直接偏好优化(DPO)如何影响对齐。在r1k上进行SFT相比s1k在评估基准上实现了1.6%--6.8%的准确率提升。然而,在SFT过程中简单混合前向和逆向数据会削弱方向区分。尽管DPO可以部分恢复这种区分,但它也会通过将概率质量转移到不相关的输出来抑制较少偏好的推理路径。这些发现表明混合推理数据引入了冲突的监督信号,强调了需要强大且方向感知的对齐策略。

数据集信息

  • 数据集名称: r1k
  • 数据来源: 通过反转s1k中的1,000个前向示例构建
  • 数据类型: 逆向推理数据
  • 对比数据集: s1k(前向推理数据集)

研究方法

  • 主要方法: 监督微调(SFT)和直接偏好优化(DPO)
  • 研究重点: 双向推理目标下的对齐效果
  • 评估指标: 准确率提升(1.6%--6.8%)

主要发现

  1. 在r1k上进行SFT相比s1k带来显著准确率提升
  2. 混合前向和逆向数据会削弱方向区分
  3. DPO可部分恢复方向区分但会抑制较少偏好的推理路径
  4. 混合推理数据引入冲突的监督信号

相关链接

  • PDF文档: http://arxiv.org/pdf/2509.13079
  • TeX源码: http://arxiv.org/tex/2509.13079
  • 其他格式: http://arxiv.org/format/2509.13079
搜集汇总
数据集介绍
main_image_url
构建方式
在推理能力优化研究领域,r1k数据集的构建采用了创新的逆向推理生成方法。该数据集基于s1k数据集中的1000个高质量正向推理样本,通过DeepSeek-R1模型系统性地生成逆向问题及其对应的思维链解答。具体而言,对于每个正向问题-答案对(x_f, y_f),模型被要求将原始答案转化为具有启发性的逆向问题x_r,同时将原始问题重构为逆向推理的答案y_r。这种自动化构建方式无需昂贵的人工标注流程,既保证了数据质量,又显著提升了构建效率。
特点
r1k数据集的核心特征体现在其双向推理的独特结构和高质量内容。该数据集包含1000个精心生成的逆向推理样本,每个样本均包含逆向问题、多步推理链和最终答案,形成了完整的逆向推理范式。与单向推理数据集相比,r1k在数学推理、物理问题求解等多个领域展现了卓越的泛化能力,实验表明基于该数据集训练的模型在AIME24、Math 500和GPQA基准测试中实现了1.6%至6.8%的准确率提升。数据集还保持了与原始s1k相当的 token 长度分布特征,中位数 token 数量为5969,确保了训练过程的稳定性。
使用方法
该数据集的使用遵循多阶段微调框架,首先采用监督微调(SFT)阶段,使用标准交叉熵损失函数对Qwen2.5-Instruct模型进行训练,输入为问题文本,目标输出为思维链与答案的拼接。随后进入直接偏好优化(DPO)阶段,通过构建方向性偏好对(x, y+, y-)来强化模型的推理方向区分能力:对于正向样本,将正向输出作为偏好响应,逆向输出作为拒绝响应;对于逆向样本则采用相反设置。训练采用LoRA参数高效微调技术,设置秩为256,缩放因子为512,并配合BF16混合精度和DeepSpeed ZeRO-3优化内存使用,最终实现模型在双向推理任务中的精准对齐。
背景与挑战
背景概述
r1k数据集由香港科技大学(广州)与香港科技大学的联合研究团队于2025年创建,旨在探索大语言模型中的逆向推理能力。该数据集通过系统性地反转s1k数据集中的1000个正向推理样本构建而成,核心研究问题聚焦于双向推理模式对模型对齐的影响。实验表明,仅使用逆向数据微调可使模型在AIME、Math 500和GPQA基准上获得1.6%至6.8%的准确率提升,凸显了逆向推理在增强模型认知灵活性方面的重要价值。
当前挑战
该数据集致力于解决多阶段微调中混合数据引发的监督信号冲突问题,其核心挑战在于双向推理路径的概率分布竞争导致模型区分能力下降。构建过程中面临自动化反转生成的质量控制难题,需确保逆向问题的逻辑一致性与答案精确性,同时需克服混合训练时方向性偏好对齐的复杂性,这要求设计更精细的概率质量分配策略以避免无关输出抑制。
常用场景
经典使用场景
在大型语言模型的多阶段微调研究中,r1k数据集被广泛应用于探索双向推理模式的优化策略。该数据集通过逆向转换s1k中的正向推理样本,构建了高质量的反向推理数据,为模型训练提供了丰富的方向性监督信号。研究人员利用r1k进行监督微调(SFT)和直接偏好优化(DPO),系统分析混合数据对模型推理路径区分能力的影响,从而揭示不同推理模式间的相互作用机制。
衍生相关工作
基于r1k数据集的研究成果催生了多个重要方向的工作发展。在方法论层面,推动了神经正切核理论在LLM微调动力学分析中的应用,为理解混合数据训练中的梯度冲突提供了理论框架。同时激发了诸如MathGenie的反向推导优化、Iterative Question Composing的目标导向推理等创新方法,这些工作共同构成了双向推理研究的重要分支,持续推动着语言模型认知能力的边界拓展。
数据集最近研究
最新研究方向
在语言模型推理能力优化领域,r1k数据集的研究聚焦于双向推理范式的探索与混合数据训练的潜在冲突。通过逆向转换s1k数据集中的千条正向推理样本,该数据集揭示了反向监督在数学推理、物理问题求解等复杂任务中带来的1.6%–6.8%性能提升。然而,混合正向与反向数据会引发监督信号冲突,削弱模型对推理方向的区分能力,即使采用直接偏好优化(DPO)也难以完全恢复方向特异性。这一发现推动了方向感知对齐策略的发展,强调高质量单方向数据相较于混合数据在提升模型推理鲁棒性方面的优越性。
相关研究论文
  • 1
    When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning香港科技大学(广州)信息枢纽、数据科学与分析研究中心,香港特别行政区,香港科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作