stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g7

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g7
Creator: stefanocarrera
Published: 2026-04-25 09:28:03
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g7

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4621385 num_examples: 142 download_size: 748409 dataset_size: 4621385 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g7，其名称揭示了其构建过程中的关键要素：基于Qwen3-4B模型，在特定学习率（0.0001）下，经过142个样本的微调，并融合了trust_t1与g7等策略。数据集共包含142条训练样本，每条样本由task_id、entry_point、prompt、completion、top_k_progression和test六个字段组成，清晰地记录了从任务标识、代码入口到生成补全及测试用例的完整流程，为代码生成与评估提供了结构化基础。

特点

该数据集最显著的特点在于其规模精巧但信息密度高，142个样本专注于特定代码生成场景的深度优化。通过top_k_progression字段记录模型在生成过程中的候选序列演变，为分析模型推理路径与策略选择提供了宝贵视角。同时，数据集内部集成了测试用例（test字段），使得模型输出的正确性可被自动验证，形成了一个闭环的评估体系，特别适合用于研究模型在代码补全任务中的渐进式改进与可靠性提升。

使用方法

使用该数据集时，用户可直接通过HuggingFace Datasets库加载默认配置，获取划分为train的完整数据。典型流程包括：首先从prompt字段提取待补全的代码上下文，利用Qwen3-4B或兼容模型生成completion，然后借助test字段中的测试用例对生成结果进行正确性验证。此外，top_k_progression字段可用于分析模型多次生成中的策略变化，为模型蒸馏或提示工程优化提供数据支持。数据集格式简洁，适用于微调、评测或可解释性分析等多种研究场景。

背景与挑战

背景概述

该数据集由autophagycode团队于近期创建，基于Qwen3-4B模型，在特定学习率0.0001和142个样本规模下微调生成，旨在探索大语言模型在代码生成任务上的能力边界。数据集聚焦于任务级代码补全与测试验证，涵盖任务标识、入口函数、提示词、补全结果及测试样例等字段，为评估模型在受限数据条件下的泛化性能提供了标准化基准。尽管样本量较小，但其结构化设计有助于深入分析模型对代码语义与语法的理解程度，对推动小样本学习与代码智能领域的交叉研究具有潜在价值。

当前挑战

该数据集面临的核心挑战在于领域问题层面：代码生成任务要求模型具备精确的语法规则理解与逻辑推理能力，而依赖固定数量的任务示例与单一规模的微调样本，可能难以覆盖多样化的编程范式和复杂算法场景。此外，构建过程中面临的数据稀缺性挑战尤为突出——142条训练样本在规模上限制了模型对长尾编程模式的捕捉，同时测试集的覆盖度与难度设计也需权衡，避免过拟合或欠拟合。如何在小样本条件下确保模型生成代码的鲁棒性与可执行性，是该数据集需持续攻克的难题。

常用场景

经典使用场景

在代码生成与自动编程领域，该数据集为训练和评估大语言模型在代码补全、程序合成及函数生成任务上的表现提供了高质量基准。其结构包含任务标识、函数入口、提示指令与完成代码，特别适合用于微调Qwen3-4B等中等规模模型，使其掌握从自然语言描述到可执行代码的映射能力。研究者常利用该数据集进行少样本学习下的代码生成实验，或将其作为强化学习反馈的起点，探索通过自回归方式逐步优化代码质量的方法。

衍生相关工作

围绕该数据集已衍生出多项经典工作，包括基于渐进式代码生成的策略优化研究，即利用top_k_progression字段探索多步解码中的置信度传递机制。部分研究在此基础上引入对比学习损失，通过样本内的正负面对抗训练提升代码语法正确性。另有工作将任务ID与入口点信息作为结构化提示模板，结合检索增强生成框架构建可复用的代码库索引，显著提升了模型在跨项目代码迁移任务中的表现。

数据集最近研究