autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g5

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个训练样本，总大小为8,047,504字节，下载大小为707,217字节。数据集包含以下字符串类型的字段：task_id（任务ID）、entry_point（入口点）、prompt（提示）、completion（完成内容）、top_k_progression（top_k进度）和test（测试）。数据集仅提供训练集分割，未提供背景、目的或具体应用场景的描述。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

数据集名称：autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g5
来源：Hugging Face Datasets（https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g5）

数据集特征

该数据集包含以下6个字段：

字段名	类型	说明
task_id	string	任务标识符
entry_point	string	入口点
prompt	string	提示文本
completion	string	补全结果
top_k_progression	string	前K个进展
test	string	测试信息

数据集划分

仅有一个划分：train
训练集大小：142个样本
训练集字节数：8,047,504字节
下载大小：707,217字节

配置文件

配置名称：default
数据文件路径：data/train-*

该数据集为一个专注于代码相关任务的小型数据集，共142个训练样本，包含任务标识、提示、补全结果等多维度信息。

搜集汇总

数据集介绍

构建方式

该数据集基于自噬代码（autophagycode）框架构建，以D语言编写的编程题目为核心，利用Qwen3-0.6B模型在特定超参数配置下生成解题代码。具体而言，模型在初始学习率为0.0001、温度系数0.2、生成数量5的条件下，针对142个任务进行了信任导向的微调，从而产生涵盖任务标识、入口函数、提示文本、代码完成结果、top_k进展序列及测试用例的结构化数据。

特点

数据集具备显著的领域专业性与结构完整性，其核心特点在于融合了代码生成与自我改进机制，通过top_k_progression字段记录模型逐步优化的中间过程，为研究程序合成中的迭代学习提供了宝贵资源。此外，数据规模虽仅含142个样本，但每个样本均包含完整的问题描述、标准答案及测试集，适于细粒度分析模型在特定任务上的收敛行为与生成质量。

使用方法

数据集设计为可直接用于监督微调或强化学习场景的训练语料。使用时，用户可根据task_id索引特定编程问题，利用prompt字段作为输入，结合completion字段中的标准解进行模型训练；同时，top_k_progression字段可辅助分析模型在多步生成中的策略演进。建议首先加载train分片数据，利用HuggingFace Datasets库解析JSON结构，并依据test字段验证生成结果的正确性。

背景与挑战

背景概述

该数据集名为autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g5，由自噬代码（AutophagyCode）研究团队创建，旨在利用Qwen3-0.6B大型语言模型生成高质量代码补全数据。数据集的构建融合了微调学习率0.0001、信任阈值0.2及生成数量5等精细参数，聚焦于代码生成任务中任务描述与代码补全的映射关系。核心研究问题在于如何通过小规模精选数据集（仅含142条训练样本）提升模型在特定编程问题上的生成能力，其对代码智能领域的影响在于验证了少样本高质量数据对微调语言模型的潜在价值，为资源受限场景下的代码生成研究提供了新视角。

当前挑战

该数据集面临的挑战首先在于代码补全领域中对生成结果准确性与多样性的平衡问题，尤其在处理复杂逻辑或罕见语法结构时，模型易产生语义偏差。构建过程中，研究者需应对小样本（仅142例）下的过拟合风险，以及如何通过top_k_progression、贪心测试策略等参数确保数据质量。此外，数据集的泛化能力受限于特定任务领域（如entry_point函数签名），难以直接迁移至跨语言或跨框架的编程场景，这对数据集的实用性构成核心壁垒。

常用场景

经典使用场景

该数据集聚焦于代码补全与自动化编程任务，是面向编程语言模型微调与评估的经典资源。其以自然语言提示（prompt）与对应代码补全（completion）为核心结构，结合top_k_progression字段记录生成过程中的候选序列演变，适用于探索自回归解码策略下代码生成的渐进式优化。研究人员常利用该数据集评估小规模语言模型（如Qwen3-0.6B）在信任阈值（trust_t0.2）与温度参数（t0.2）控制下的代码生成质量，是验证模型在有限参数空间中实现稳定且可靠代码输出的典型基准。

解决学术问题

该数据集解决了代码智能领域中因提示复杂性差异导致的模型生成稳定性难题。传统代码补全任务常忽略解码参数对结果一致性的影响，而该数据集通过引入信任阈值与温度系数，系统化地研究了小模型在低资源场景下对抗生成噪声与语义漂移的能力。其学术意义在于为轻量化语言模型的代码生成能力提供了可复现的评估框架，推动了窄域代码生成中参数敏感性与鲁棒性分析的研究进展，并为后续探索模型置信度与生成质量间的映射关系奠定了实证基础。

衍生相关工作

基于该数据集的设计理念，衍生出多项关于小型语言模型代码生成能力增强的研究工作。典型的工作包括：探索不同温度参数下解码策略对代码语法正确性的影响，提出结合top_k截断与信任阈值的混合生成算法以提升代码保真度；以及将该数据集作为基准，对比Qwen3系列模型在不同参数量下的渐进式代码生成表现，从而指导模型压缩与蒸馏策略的优化。这些工作共同推动了面向资源受限环境的代码智能体研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集