stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9
Creator: stefanocarrera
Published: 2026-04-25 00:38:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4304518 num_examples: 164 download_size: 502009 dataset_size: 4304518 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9，是在程序合成与自动代码修复领域背景下构建的。数据集的构建基于Qwen3-4B模型，采用特定策略（strategy_scm）并设置温度参数t0.2，通过迭代生成与筛选获得高质量代码补全样本。每条样本包含任务ID、入口函数、提示、补全结果、前5个最优进展排序以及测试用例，形成结构化代码生成记录。数据共包含164条训练样本，存储为统一的JSON格式，便于机器解析与模型微调。

特点

该数据集的核心特点在于其精炼的样本规模与丰富的结构信息。虽然仅有164条样本，但每条样本均附带入口点、提示、完成代码及前5名进展轨迹，支持多角度代码演化分析。特别地，top_5_progression字段记录了模型生成过程中的渐进式优化路径，为研究代码迭代改进提供了可追踪的中间状态。此外，每个样本均包含测试用例，可直接用于评估生成代码的功能正确性，适合在受限数据条件下进行小样本学习与策略验证。

使用方法

该数据集主要用于训练或评估代码生成模型，尤其适合研究基于策略迭代的代码优化场景。使用时可将数据加载为训练集，利用prompt字段作为输入，completion字段作为目标输出，训练模型生成正确代码。top_5_progression字段可进一步用于对比学习或强化学习中的奖励塑造。测试用例字段提供自动化验证手段，确保生成代码的功能正确性。数据处理上，建议按task_id进行分组，以支持跨任务泛化能力的评估。

背景与挑战

背景概述

该数据集由autophagycode团队基于Qwen3-4B模型构建，采用策略采样与截止机制（strategy_scm_t0.2_g9）生成，聚焦于代码补全任务的训练与评估。创建于2025年，核心研究问题在于如何通过大语言模型生成高质量、多样化的代码补全样本，以提升模型在复杂编程场景下的表现。数据集包含164个训练样本，覆盖多种编程任务，其设计强调渐进式学习（top_5_progression），旨在模拟代码逐步完善的过程。作为代码智能领域的一项尝试，该数据集为小样本场景下的代码生成研究提供了新的数据基础，对推动大模型在代码理解与生成方向的应用具有参考价值。

当前挑战

在领域问题层面，代码补全需应对语义多样性、逻辑一致性与语法合规性等多重挑战，尤其当任务涉及结构化编程或跨语言特性时，模型易产生非语义性错误。构建过程中，数据集的规模限制（仅164样本）带来泛化能力不足的风险，难以覆盖广泛编程模式；此外，通过策略采样生成样本时，需在探索性与安全性间平衡，避免生成低质量或冗余数据。依赖单一模型（Qwen3-4B）可能引入偏见，且渐进式标注（top_5_progression）的合理性验证缺乏独立基准，增加了数据质量控制的复杂性。

常用场景

经典使用场景

在代码生成与程序合成这一前沿研究领域，尤其是面向复杂编程竞赛问题的场景中，本数据集以其精细化的‘策略-代码串联’结构脱颖而出。通过记录任务描述、函数入口点、代码提示及高质量补全序列，数据集支持研究者训练模型在给定问题描述与初始代码骨架的基础上，自动生成后续的完整实现。这种从‘问题解析’到‘策略推导’再到‘代码填充’的链式学习范式，为提升语言模型在算法设计与代码生成任务中的逻辑连贯性与正确率提供了标准化的训练与评估基准。

衍生相关工作

围绕本数据集的结构化设计理念，研究者已衍生出多项具有影响力的经典工作。例如，基于其中的策略演进字段，催生了‘策略蒸馏’和‘思维链编程’两类方法，旨在将多步推理的中间状态压缩为高效生成模型可学习的表示。同时，数据集中的任务入口点与测试用例设计，支撑了‘基于差分进化的代码搜索’和‘程序修复中的错误定位与补丁生成’等应用型研究的基准构建。这些衍生工作共同编织了一张从数据驱动到算法创新的知识网络，持续推动着神经程序合成领域的边界拓展。

数据集最近研究