stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7
Creator: stefanocarrera
Published: 2026-04-24 23:13:01
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 2061927 num_examples: 65 download_size: 194766 dataset_size: 2061927 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集源自autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7项目，通过在大语言模型Qwen3-4B上进行指令微调构建而成。具体而言，数据集以代码生成为核心任务，针对每个编程问题收集了模型生成的候选方案，并通过自一致性机制筛选出前5个最优解，形成top_5_progression特征字段。训练样本共计65条，涵盖具有唯一标识的编程问题(task_id)、函数入口点(entry_point)、问题描述(prompt)、参考答案(completion)以及单元测试用例(test)，所有数据以结构化形式存储于HuggingFace平台上。

特点

本数据集兼具小规模与高质量的双重特性。样本数量虽仅为65条，却聚焦于代码生成这一细分场景，每条样本均包含完整的问题描述、标准答案及多组候选逐步优化方案，为研究模型在代码任务中的迭代推理能力提供了丰富素材。此外，数据集明确定义了训练集划分，且各字段类型清晰，便于研究者精准定位所需信息，尤其适合评估指令微调对大语言模型代码生成性能的影响。

使用方法

该数据集可直接通过HuggingFace的datasets库加载，指定配置名为'default'并读取'train'split即可获得完整训练数据。使用时，用户可提取'prompt'字段作为模型输入，以'completion'作为目标输出进行监督学习，或利用'top_5_progression'追踪模型生成过程中的优化轨迹。同时，'test'字段内嵌的单元测试用例支持自动化的代码正确性验证，便于在微调后实施端到端的性能评估。

背景与挑战

背景概述

该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7，由自噬码（autophagycode）研究团队基于Qwen3-4B模型微调生成，创建时间约为2025年。数据集聚焦于代码生成任务的评估与微调，包含65个训练样本，每个样本涵盖任务ID、入口点、提示、补全、前5步进展及测试字段，旨在探索大语言模型在特定领域代码补全能力上的优化路径。其核心研究问题在于如何通过小样本微调提升模型对复杂编程任务的理解与生成质量，尤其在受限资源场景下。该数据集对代码智能领域的影响体现在提供了细粒度的训练-评估基准，推动了轻量级模型在代码生成任务中的实用化发展。

当前挑战

该数据集面临的挑战首先在于其规模极小（仅65个样本），这直接限制了模型对多样化编程模式的泛化能力，容易导致过拟合或对边缘案例处理不足。构建过程中，如何从海量代码片段中精选出具有代表性且难度适中的任务，同时确保数据标注的一致性与准确性，是一项艰巨任务。此外，数据集采用特定的超参数组合（如学习率0.0001、温度0.2），模型对这些参数的敏感性要求数据构建过程必须严格匹配微调策略，否则可能引发迁移性能下降。最后，当前数据格式缺乏多语言或跨框架支持，可能阻碍其在更广泛代码生成场景中的适用性。

常用场景

经典使用场景

在程序合成与代码补全的研究领域，autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g7数据集主要被用于训练和评估面向特定问题的代码生成模型。该数据集包含了65条精心设计的训练样本，每条样本由任务描述、入口函数、提示、补全代码及前5步的推理进展构成，特别适合用于教学式微调（Instruction Tuning）场景。研究者和工程师常借助此数据集，探索如何通过少量高质量样本激发大语言模型在代码生成任务上的涌现能力，并评估模型在严格约束下完成函数级编程问题的精确性。

衍生相关工作

围绕该数据集的设计范式，学术界衍生出多项先导性工作。例如，有研究以此数据集为基线，引入秩收敛机制（Rank Convergence）来优化解码策略，提升了多步生成任务的局部一致性；另有工作基于其高密度推理追踪标签，开发了针对大语言模型中间推理状态的可视化分析方法。该数据集的compact架构（65条样本）还催生了面向代码生成的‘少样本课程学习’（Few-shot Curriculum Learning）框架，成为检验模型知识迁移效率的重要试金石，其影响延伸至增量学习与持续微调的前沿方向。

数据集最近研究