CodeSeq

Name: CodeSeq
Creator: 华东师范大学,复旦大学,上海创新研究院,西安交通大学,上海人工智能实验室
Published: 2025-10-16 20:29:40
License: 暂无描述

arXiv2025-10-16 更新2025-10-18 收录

下载链接：

https://arxiv.org/abs/2510.14620v1

下载链接

链接失效反馈

官方服务：

资源简介：

CodeSeq是一个由数字序列构建的合成后训练数据集，旨在提高大型语言模型（LLMs）的归纳推理能力。该数据集通过将数字序列打包成算法问题，并定义一个通用项生成（GTG）任务，帮助LLMs学习自主案例生成和自我检查。CodeSeq还利用强化学习，基于问题的可解决性和自我指导案例生成的成功率，设计了一种新的案例协同可解决性缩放奖励，以提高模型的学习效率和归纳推理能力。

提供机构：

华东师范大学,复旦大学,上海创新研究院,西安交通大学,上海人工智能实验室

创建时间：

2025-10-16

原始信息汇总

数据集概述

基本信息

标题: Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models
arXiv ID: 2510.14620v1
提交日期: 2025年10月16日
学科分类: Computer Science > Computation and Language

作者列表

Kedi Chen, Zhikai Lei, Xu Guo, Xuecheng Wu, Siyuan Zeng, Jianghao Yin, Yinqi Zhang, Qin Chen, Jie Zhou, Liang He, Qipeng Guo, Kai Chen, Wei Zhang

数据集描述

数据集名称: CodeSeq
类型: 合成后训练数据集
数据来源: 数字序列
构建方式: 将数字序列打包为算法问题以发现其通项
对应任务: 通项生成任务

技术特点

通过反思失败的测试用例生成监督微调数据
结合迭代修正
教导大型语言模型学习自主案例生成和自检
利用强化学习
采用基于可解性和自导向案例生成成功率的新型案例协同可解性缩放奖励

实验效果

使用CodeSeq训练的模型在各种推理任务上表现提升
能够保持模型的分布外性能

资源链接

PDF文档: https://arxiv.org/pdf/2510.14620v1
HTML文档: https://arxiv.org/html/2510.14620v1
TeX源码: https://arxiv.org/format/2510.14620v1
DOI: https://doi.org/10.48550/arXiv.2510.14620

搜集汇总

数据集介绍

构建方式

在归纳推理研究领域，CodeSeq数据集通过创新的数值序列算法化流程构建而成。该流程首先从权威数学网站爬取数千个数值序列及其关联信息，采用工作代理将每个序列封装为包含故事背景的算法问题，并生成两个示例案例。随后通过引导代理验证问题描述与案例的一致性，确保算法问题的正确性。最终将验证通过的问题分为两组，分别用于监督微调数据和强化学习数据的构建，形成完整的后训练数据集。

特点

CodeSeq数据集的核心特征体现在其独特的归纳推理训练范式设计。该数据集包含约3000种数值序列模式，覆盖了从简单线性关系到复杂递归关系的多样化归纳模式。其监督微调数据融入了基于案例的反思机制，通过代码单元测试验证解决方案，并将失败案例的修正过程注入思维链，有效提升了模型自主生成案例和自检的能力。强化学习数据则采用基于通过率的可解性估计，配合创新的案例协同可解性缩放奖励机制，实现了对学习过程的精准控制。

使用方法

该数据集的使用遵循分阶段训练策略，首先将监督微调数据与通用后训练语料Tülu 3混合进行监督微调，以保持模型的指令遵循能力。随后使用强化学习数据应用GRPO算法进行训练，其中特别设计的奖励函数同时考虑问题可解性和自主案例生成成功率。在评估阶段，模型在领域内的通项生成任务、近领域的代码推理基准以及领域外的综合推理基准上进行全面测试，通过OpenCompass评估框架确保评估结果的可靠性和可比性。

背景与挑战

背景概述

随着大语言模型在推理任务中取得显著进展，归纳推理因其与人类学习模式的契合性而受到广泛关注。CodeSeq数据集由华东师范大学、复旦大学、西安交通大学及上海人工智能实验室等机构的研究团队于2025年联合创建，旨在通过数值序列的算法化封装解决归纳推理中复杂内部模式缺失的问题。该数据集通过构建通用项生成任务，将数值序列转化为代码求解问题，推动了大语言模型在自主案例生成与自我验证能力方面的突破，为推理能力的系统性提升提供了重要数据支撑。

当前挑战

CodeSeq面临的领域挑战在于解决归纳推理中深层模式挖掘的难题，传统数据集仅关注表层规律，难以捕捉数值序列背后的复杂数学逻辑。在构建过程中，需克服数值序列通用项数学表达困难的问题，通过代码解决方案实现精确表征；同时需设计自动化流程确保算法问题与测试案例的一致性，并利用强化学习中的可解性评估机制平衡数据难度与模型可学习性，保障训练数据的质量与多样性。

常用场景

经典使用场景

在自然语言处理领域，CodeSeq数据集被广泛应用于增强大语言模型的归纳推理能力。该数据集通过将数字序列封装为算法问题，引导模型学习从具体观察中推导通用模式的过程。在典型应用场景中，研究者利用CodeSeq训练模型生成代码解决方案，通过单元测试验证其正确性，从而培养模型自主生成测试用例并进行自我修正的能力。这种训练方式特别适用于需要从有限示例中推断复杂内在规律的场景，为模型提供了系统化的归纳推理训练框架。

解决学术问题

CodeSeq数据集有效解决了归纳推理研究中的两个核心学术问题：一是传统归纳数据仅关注表面规律而缺乏复杂内在模式的问题，通过数字序列的深层数学逻辑构建了丰富的推理模式；二是现有方法仅通过简单提示或微调训练而缺乏精确思维过程指导的局限，引入了基于案例反思的推理机制。该数据集通过构建通用项生成任务，为研究语言模型如何从具体观察中抽象通用规则提供了标准化评估基准，推动了归纳推理研究从表面模式匹配向深层逻辑推断的范式转变。

衍生相关工作

基于CodeSeq数据集的研究催生了多个重要衍生工作。在方法论层面，研究者提出了案例协同可解性缩放奖励机制，将问题通过率与自主案例生成成功率相结合，优化了强化学习训练过程。在模型架构方面，出现了专门针对归纳推理的微调策略，如混合训练框架和分层反思机制。评估体系也得到扩展，衍生出包括GTG任务、代码推理基准和综合推理测试在内的多维度评估标准。这些工作共同构建了完整的归纳推理研究生态系统，为后续研究提供了理论基础和实践指南。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集