stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g6

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g6
Creator: stefanocarrera
Published: 2026-04-24 22:13:12
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g6

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 2114180 num_examples: 72 download_size: 199239 dataset_size: 2114180 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g6，从命名规则可以推断，其构建依托于Qwen3-4B基座模型，在特定学习率（0.0001）与温度系数（0.2）等超参数配置下，通过自洽性采样策略生成。数据集聚焦于代码生成领域的自噬代码任务，每个样本包含任务标识、入口函数、提示文本、完成结果、前五步进展序列以及测试用例，形成结构化的训练实例。最终采集72条样本，以单训练集分割形式存储。

使用方法

数据集以HuggingFace标准格式提供，可通过加载默认配置直接读取train分割数据。用户可利用prompt字段作为输入，completion字段作为目标，训练序列到序列的代码生成模型。top_5_progression可用于多步推理监督或对比学习，而test字段可独立用于在推理阶段验证生成代码的功能正确性。适用于微调、少样本学习及模型推理过程分析等场景。

背景与挑战

背景概述

该数据集由autophagycode团队于近期创建，旨在微调Qwen3-4B模型以增强其代码生成能力，特别是针对“Mercury”任务。数据集包含72个训练样本，每个样本涵盖任务ID、入口点、提示、补全、前五进展及测试字段，体现了在少样本场景下对代码补全与逻辑推理的精细化探索。其研究背景植根于大语言模型在自动化编程领域的应用，通过低学习率（0.0001）与特定采样策略（t0.2, g6）优化模型对代码结构的理解，为提升小型模型在专业编程任务上的表现提供了新路径，对代码智能领域具有潜在推动力。

当前挑战

数据集面临的挑战分为两个层面。在领域问题层面，它致力于解决大语言模型在复杂代码逻辑补全中的低效性与不准确性，尤其是针对多步骤推理场景，需在有限样本下实现高精度输出。在构建过程中，挑战在于仅72个样本的高质量标注与平衡，需确保每个实例的prompt与completion映射精准，同时top_5_progression字段的设计需涵盖多样化编码路径，以克服小样本训练易过拟合的困境，并验证模型泛化至未见代码任务的能力。

常用场景

经典使用场景

在科学计算与自动化编程的交汇领域，该数据集专为代码生成与逻辑推理任务而设计，尤其适用于基于自然语言描述自动合成复杂函数或算法。其经典使用场景聚焦于将结构化任务描述（如任务ID与入口点）转化为可执行代码片段，并结合自回归模型进行条件生成测试，以评估模型对编程逻辑与参数约束的掌握程度。

解决学术问题

该数据集有效解决了代码合成领域中长期存在的低资源场景下的泛化能力评估难题，尤其是在仅有少量样本（72条训练实例）的约束下，如何衡量语言模型对编程规范的遵循度与创造性推理能力。其意义在于为极简样本设定下代码生成模型的鲁棒性研究提供了标准化基准，推动了学术界对少样本学习与程序合成内在机制的深入理解。

实际应用

在实际应用中，该数据集可被用于构建轻量级代码辅助工具，例如自动补全函数体、生成单元测试框架或为低代码平台提供智能推荐逻辑。它特别适用于资源受限环境（如边缘设备或快速原型开发）中的代码生成需求，能够根据用户输入的简短提示，高效产出符合预期功能的程序片段，从而加速软件开发流程。

数据集最近研究