stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g9
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g9
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: prompt
dtype: string
- name: completion
dtype: string
- name: top_5_progression
dtype: string
- name: test
dtype: string
splits:
- name: train
num_bytes: 2083432
num_examples: 69
download_size: 202658
dataset_size: 2083432
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g9,聚焦于代码生成与自动编程领域,旨在为大型语言模型在代码补全与生成任务上提供高质量的训练样本。数据集的构建依托于Qwen3-4B模型,采用特定超参数配置(学习率0.0001、上下文长度142、采样温度0.2、生成数量9),通过对原始代码任务进行多轮自洽性采样与优化,最终形成包含69条训练样本的精炼集合。每条样本涵盖任务标识、函数入口、提示词、补全结果、前五步进展序列以及测试用例,确保了数据在代码逻辑验证上的完整性与复用性。
特点
该数据集的核心特点在于其精炼且结构化的设计,仅含69条训练样本,却覆盖了从任务定义到测试验证的完整代码开发链条。每条样本包含prompt、completion和top_5_progression字段,既可用于监督式微调,也能服务于逐步推理过程的分析与评估。数据集中还内置了test字段,支持自动化的代码正确性验证,使得模型训练与测评可闭环进行。此结构特别适合研究低资源场景下代码生成模型的泛化能力、推理链路的演化规律及采样策略对输出多样性的影响。
使用方法
使用该数据集时,用户可通过HuggingFace Datasets库加载default配置下的train分片数据。每条记录可直接作为对话式代码补全任务的输入输出对:将prompt字段作为模型输入,completion字段作为目标输出,用于标准的监督微调训练。此外,top_5_progression字段可用于多步推理或过程奖励建模,研究模型逐步生成代码时的中间状态演化。test字段则提供了静态验证手段,可对模型生成结果进行自动化功能测试,从而量化代码生成的质量与正确性。
背景与挑战
背景概述
该数据集由名为autophagycode的研究团队于近期创建,专注于利用Qwen3-4B模型在特定学习率(0.0001)与温度参数(0.2)下生成的代码补全数据。数据集共包含69个训练样本,每个样本涵盖任务标识、入口点、提示词、补全内容、前五步进展及测试用例等字段,旨在研究大型语言模型在代码生成任务中的推理与补全能力。作为代码智能领域的一项微调数据集,它为探索轻量级模型在结构化编程任务中的表现提供了宝贵资源,尤其聚焦于模型如何基于有限上下文逐步推理出正确代码序列,对理解模型内部机制与优化生成策略具有启示意义。
当前挑战
该数据集所解决的领域问题聚焦于代码补全与推理生成中的上下文理解与序列一致性挑战。代码生成任务要求模型不仅能够理解语法结构,还需精准捕捉逻辑依赖与函数调用顺序,而现有模型常因长距离依赖或噪声输入导致输出偏差。在构建过程中,团队面临样本量稀缺(仅69例)带来的过拟合风险,以及如何从Qwen3-4B的原始输出中提取高质量、无歧义的补全对作为训练基准。此外,温度参数与学习率的敏感调控亦构成挑战,需在探索多样性与保持生成稳定性间取得平衡,确保数据集能有效反映模型在真实编程任务中的表现瓶颈。
常用场景
经典使用场景
autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g9数据集在代码智能领域内,最经典的应用场景聚焦于函数级代码补全与程序合成任务的垂域微调。该数据集以任务ID为索引,包含编程问题的入口函数、提示文本以及对应的代码补全结果,尤其引入了top_5_progression字段,记录了模型生成过程中的渐进式优化状态。这种结构天然适合研究者探索基于自回归生成模型(如Qwen3-4B)在低资源条件下的指令微调策略,并测试其在不同搜索空间约束下(如temperature控制与采样策略)的代码产出质量与多样性。
解决学术问题
该数据集直面的核心学术问题,是如何在极少样本(69条训练样本)上实现有效的代码微调,从而推动少样本代码生成的可迁移性研究。传统代码数据集通常要求大规模标注,而本数据集的稀疏特性恰恰挑战了模型在实例稀疏场景下的泛化能力。通过引入渐进式优化路径(top_5_progression),研究者可以系统剖析大语言模型在代码生成任务中从次优解逐步逼近预期解的内在机理,这对于理解自回归模型在结构化语言生成中的学习动态具有显著的理论意义。
衍生相关工作
围绕此数据集,衍生出若干关键性学术探索,包括少样本指令微调下的代码生成稳定性分析、以及基于beam search或多样化采样(如temperature抽样)的多路径代码演化技术。该数据集所采用的Qwen3-4B基础模型微调管线,也催生了关于小参数代码模型在垂直任务上超越通用大模型效果的研究对比工作。此外,top_5_progression字段的引入启发了后续工作将生成轨迹建模为强化学习奖励信号,为代码生成中的序列决策优化提供了新的实证基础。
以上内容由遇见数据集搜集并总结生成



