r1k

Name: r1k
Creator: 香港科技大学（广州）信息枢纽、数据科学与分析研究中心,香港特别行政区,香港科技大学
Published: 2025-09-16 21:36:36
License: 暂无描述

arXiv2025-09-16 更新2025-09-18 收录

下载链接：

http://arxiv.org/abs/2509.13079

下载链接

链接失效反馈

官方服务：

资源简介：

r1k数据集是一个高质量的逆向推理数据集，通过将s1k数据集中的1000个正向推理示例进行逆向转换而得到。该数据集由DeepSeek-R1模型生成，无需昂贵的数据收集、清洗或选择流程。r1k数据集旨在研究双向推理对大型语言模型推理能力的影响，并探索如何通过双向监督提升模型性能。数据集包含反向问题和推理路径，以及相应的答案，旨在支持更鲁棒的推理能力。

The r1k dataset is a high-quality backward reasoning dataset, derived by reversely converting 1000 forward reasoning examples from the s1k dataset. Generated by the DeepSeek-R1 model, this dataset circumvents the need for costly data collection, cleaning, or selection processes. It is intended to investigate the influence of bidirectional reasoning on the reasoning abilities of large language models (LLMs), as well as to explore how to improve model performance through bidirectional supervision. The dataset comprises backward questions, reasoning paths, and their corresponding answers, with the goal of supporting the cultivation of more robust reasoning capabilities.

提供机构：

香港科技大学（广州）信息枢纽、数据科学与分析研究中心,香港特别行政区,香港科技大学

创建时间：

2025-09-16

原始信息汇总

数据集概述：When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning

基本信息

标题: When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
arXiv标识符: arXiv:2509.13079
提交日期: 2025年9月16日
作者: Mengyi Deng, Xin Li, Tingyu Zhu, Zhicheng Yang, Zhijiang Guo, Wei Wang
学科分类: 计算机科学 > 机器学习 (cs.LG); 计算与语言 (cs.CL)
DOI: https://doi.org/10.48550/arXiv.2509.13079

摘要

现有研究表明，通过有限的数据蒸馏可以实现o1级性能，但大多数现有方法侧重于单向监督微调（SFT），忽略了不同推理模式之间复杂的相互作用。本文构建了r1k，一个通过反转s1k中的1,000个前向示例得到的高质量逆向推理数据集，并研究了在双向推理目标下SFT和直接偏好优化（DPO）如何影响对齐。在r1k上进行SFT相比s1k在评估基准上实现了1.6%--6.8%的准确率提升。然而，在SFT过程中简单混合前向和逆向数据会削弱方向区分。尽管DPO可以部分恢复这种区分，但它也会通过将概率质量转移到不相关的输出来抑制较少偏好的推理路径。这些发现表明混合推理数据引入了冲突的监督信号，强调了需要强大且方向感知的对齐策略。

数据集信息

数据集名称: r1k
数据来源: 通过反转s1k中的1,000个前向示例构建
数据类型: 逆向推理数据
对比数据集: s1k（前向推理数据集）

研究方法

主要方法: 监督微调（SFT）和直接偏好优化（DPO）
研究重点: 双向推理目标下的对齐效果
评估指标: 准确率提升（1.6%--6.8%）

主要发现

在r1k上进行SFT相比s1k带来显著准确率提升
混合前向和逆向数据会削弱方向区分
DPO可部分恢复方向区分但会抑制较少偏好的推理路径
混合推理数据引入冲突的监督信号

相关链接

PDF文档: http://arxiv.org/pdf/2509.13079
TeX源码: http://arxiv.org/tex/2509.13079
其他格式: http://arxiv.org/format/2509.13079

搜集汇总

数据集介绍

构建方式

在推理能力优化研究领域，r1k数据集的构建采用了创新的逆向推理生成方法。该数据集基于s1k数据集中的1000个高质量正向推理样本，通过DeepSeek-R1模型系统性地生成逆向问题及其对应的思维链解答。具体而言，对于每个正向问题-答案对(x_f, y_f)，模型被要求将原始答案转化为具有启发性的逆向问题x_r，同时将原始问题重构为逆向推理的答案y_r。这种自动化构建方式无需昂贵的人工标注流程，既保证了数据质量，又显著提升了构建效率。

特点

r1k数据集的核心特征体现在其双向推理的独特结构和高质量内容。该数据集包含1000个精心生成的逆向推理样本，每个样本均包含逆向问题、多步推理链和最终答案，形成了完整的逆向推理范式。与单向推理数据集相比，r1k在数学推理、物理问题求解等多个领域展现了卓越的泛化能力，实验表明基于该数据集训练的模型在AIME24、Math 500和GPQA基准测试中实现了1.6%至6.8%的准确率提升。数据集还保持了与原始s1k相当的 token 长度分布特征，中位数 token 数量为5969，确保了训练过程的稳定性。

使用方法

该数据集的使用遵循多阶段微调框架，首先采用监督微调（SFT）阶段，使用标准交叉熵损失函数对Qwen2.5-Instruct模型进行训练，输入为问题文本，目标输出为思维链与答案的拼接。随后进入直接偏好优化（DPO）阶段，通过构建方向性偏好对(x, y+, y-)来强化模型的推理方向区分能力：对于正向样本，将正向输出作为偏好响应，逆向输出作为拒绝响应；对于逆向样本则采用相反设置。训练采用LoRA参数高效微调技术，设置秩为256，缩放因子为512，并配合BF16混合精度和DeepSpeed ZeRO-3优化内存使用，最终实现模型在双向推理任务中的精准对齐。

背景与挑战

背景概述

r1k数据集由香港科技大学（广州）与香港科技大学的联合研究团队于2025年创建，旨在探索大语言模型中的逆向推理能力。该数据集通过系统性地反转s1k数据集中的1000个正向推理样本构建而成，核心研究问题聚焦于双向推理模式对模型对齐的影响。实验表明，仅使用逆向数据微调可使模型在AIME、Math 500和GPQA基准上获得1.6%至6.8%的准确率提升，凸显了逆向推理在增强模型认知灵活性方面的重要价值。

当前挑战

该数据集致力于解决多阶段微调中混合数据引发的监督信号冲突问题，其核心挑战在于双向推理路径的概率分布竞争导致模型区分能力下降。构建过程中面临自动化反转生成的质量控制难题，需确保逆向问题的逻辑一致性与答案精确性，同时需克服混合训练时方向性偏好对齐的复杂性，这要求设计更精细的概率质量分配策略以避免无关输出抑制。

常用场景

经典使用场景

在大型语言模型的多阶段微调研究中，r1k数据集被广泛应用于探索双向推理模式的优化策略。该数据集通过逆向转换s1k中的正向推理样本，构建了高质量的反向推理数据，为模型训练提供了丰富的方向性监督信号。研究人员利用r1k进行监督微调（SFT）和直接偏好优化（DPO），系统分析混合数据对模型推理路径区分能力的影响，从而揭示不同推理模式间的相互作用机制。

衍生相关工作

基于r1k数据集的研究成果催生了多个重要方向的工作发展。在方法论层面，推动了神经正切核理论在LLM微调动力学分析中的应用，为理解混合数据训练中的梯度冲突提供了理论框架。同时激发了诸如MathGenie的反向推导优化、Iterative Question Composing的目标导向推理等创新方法，这些工作共同构成了双向推理研究的重要分支，持续推动着语言模型认知能力的边界拓展。

数据集最近研究