TESSY-Code-80K

github2026-04-20 更新2026-04-22 收录

下载链接：

https://github.com/CoopReason/TESSY

下载链接

链接失效反馈

官方服务：

资源简介：

专为Qwen3-8B优化设计的数据集，用于代码生成任务，使用TESSY框架合成，能显著提升Qwen3-8B在多种代码生成任务中的性能。

A dataset specifically optimized for Qwen3-8B for code generation tasks, synthesized using the TESSY framework, which can significantly boost the performance of Qwen3-8B across various code generation tasks.

创建时间：

2026-03-23

原始信息汇总

数据集概述

数据集基本信息

数据集名称: TESSY-Code-80K
发布平台: Hugging Face
数据集地址: https://huggingface.co/datasets/CoopReason/TESSY-Code-80K
关联论文: https://arxiv.org/pdf/2604.14164
核心方法: TESSY (Teacher–Student Cooperative Data Synthesis framework)

数据集目的与背景

研究动机: 解决使用离策数据（如直接来自强教师模型的数据）进行监督微调时，在复杂推理任务上导致的严重灾难性遗忘问题。
核心思想: 通过教师-学生合作框架，合成与学生学习分布一致的、在策的监督微调数据，以缓解灾难性遗忘。

数据集生成方法

方法概述: TESSY采用迭代合作生成方法。
关键步骤:
1. 预测推理边界: 识别问题中推理步骤与非推理内容之间的边界。
2. 交替生成: 教师模型和学生模型交替生成解决方案的部分内容。
3. 构建完整轨迹: 组合协作生成的片段，构建与学生学习分布一致的、高质量、完整的推理轨迹。
角色分工:
- 教师模型: 专门生成“能力令牌”。
- 学生模型: 专注于生成“风格令牌”。

数据集内容与效果

设计目标模型: 该数据集为Qwen3-8B模型进行了专门优化和定制。
主要应用领域: 代码生成任务。
性能提升: 在多个代码生成基准测试中，使用该数据集训练的Qwen3-8B模型性能显著提升。
- LCB-V5: 从55.09%提升至62.87%（↑ 7.78%）
- LCB-V6: 从49.58%提升至55.43%（↑ 5.85%）
- LCB-Pro: 从25.35%提升至36.69%（↑ 11.34%）
- OJBench: 从18.75%提升至25.43%（↑ 6.68%）
适用性说明: 该数据集可应用于其他Qwen3模型，但由于合成过程专门针对Qwen3-8B进行了优化，性能增益可能有所不同。

相关资源

边界预测器: 提供了训练好的边界预测器，包括CoopReason/Boundary_Predictor_Teacher_Code和CoopReason/Boundary_Predictor_Student_Code。
使用脚本: 提供了运行TESSY的脚本(run_tessy.sh)和示例输入文件(datas/examples.jsonl，为OJBench的子集)。

搜集汇总

数据集介绍

构建方式

在代码生成领域，数据质量对模型性能具有决定性影响。TESSY-Code-80K数据集采用一种创新的师生协作框架构建而成，该框架通过解耦生成过程，将能力令牌与风格令牌的生成分别分配给教师模型与学生模型。具体而言，首先预测推理边界以区分问题中的推理步骤与非推理内容，随后师生模型交替生成解决方案片段，最终整合这些协作生成的段落，形成完整且高质量的推理轨迹。这一迭代式合作生成机制确保了合成数据与学生模型的生成分布保持一致，从而有效缓解了传统离策略数据导致的灾难性遗忘问题。

特点

该数据集的核心特征在于其严格遵循在策略数据合成原则，专门为Qwen3-8B模型优化设计，确保了数据分布与目标学生模型的高度对齐。数据集包含约八万条高质量代码生成样本，每条样本均由教师模型的强推理能力与学生模型的个性化风格令牌共同构成，不仅保留了教师模型的先进推理质量，还融入了学生模型特有的表达模式。实验结果表明，使用该数据集进行微调能在多个代码生成基准测试上带来显著性能提升，例如在LCB-Pro基准上实现了超过11个百分点的改进，凸显了其在提升模型代码生成能力方面的卓越效果。

使用方法

为有效利用TESSY-Code-80K数据集，用户需首先部署教师与学生模型的API服务器，并配置相应的硬件参数如张量并行度与GPU内存利用率。随后，准备预训练的边界预测器以识别推理边界，或通过提供的脚本自行训练。完成环境配置后，运行指定的脚本即可启动数据合成流程，该流程以示例输入文件为基础，生成与学生模型分布一致的高质量训练数据。生成的数据可直接用于微调代码生成模型，尤其适用于Qwen3系列模型，从而在保持模型原有风格的同时显著增强其推理与代码生成能力。

背景与挑战

背景概述

TESSY-Code-80K数据集由上海人工智能实验室（Shanghai AI Laboratory）的研究团队于2026年提出，旨在解决大型语言模型在代码生成任务中因监督微调数据分布不匹配而引发的灾难性遗忘问题。该数据集基于创新的师生协作框架构建，通过教师模型与学生模型交替生成能力令牌与风格令牌，合成符合学生模型自身分布的策略内数据，从而在保持教师模型推理质量的同时，确保数据与目标模型的高度对齐。该工作不仅为代码生成模型的微调提供了高质量数据资源，也为推理模型的训练数据合成方法开辟了新路径，对提升模型在复杂任务上的泛化能力具有显著影响力。

当前挑战

在代码生成领域，模型微调常面临灾难性遗忘的挑战，即使用强教师模型生成的策略外数据直接进行监督微调会导致学生模型在目标任务上性能严重退化。TESSY-Code-80K的构建过程需克服师生模型协同生成的复杂性，包括准确预测推理边界、实现能力与风格令牌的有效解耦，以及确保合成数据既能继承教师的高级推理能力，又严格匹配学生模型的生成分布。这些挑战要求精细的算法设计与迭代优化，以保障最终数据集的质效平衡。

常用场景

经典使用场景

在代码生成领域，TESSY-Code-80K数据集为推理模型的高效微调提供了关键支持。该数据集通过师生协同框架，专门针对Qwen3-8B模型生成与模型自身分布对齐的监督微调数据。其经典使用场景集中于代码生成任务的模型优化，例如在LeetCode风格的问题求解中，模型能够基于该数据集学习到更符合自身推理风格的解决方案，从而提升代码生成的质量与效率。

衍生相关工作

围绕TESSY-Code-80K数据集，衍生出了一系列关于师生协同数据合成的经典研究工作。这些工作进一步探索了边界预测器的优化、交替生成策略的改进，以及该框架在其他推理任务如数学求解或逻辑推理中的泛化应用。相关研究不仅深化了对模型微调数据分布对齐的理解，也为构建更高效、更稳定的专用领域微调数据集提供了可借鉴的范式。

数据集最近研究