autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g4

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个训练样本，总大小约8.2MB，由6个字符串类型的字段组成：task_id（任务标识）、entry_point（入口点）、prompt（提示文本）、completion（补全内容）、top_k_progression（Top-K进度）和test（测试内容）。数据集仅提供train拆分，未包含背景说明或具体应用场景描述。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

数据集名称：autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g4
数据源地址：https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g4

数据集特征

该数据集包含以下6个特征字段：

task_id：字符串类型，表示任务ID。
entry_point：字符串类型，表示入口点。
prompt：字符串类型，表示提示文本。
completion：字符串类型，表示完成文本。
top_k_progression：字符串类型，表示前K个进展。
test：字符串类型，表示测试相关数据。

数据集划分

数据集仅包含一个划分：

train（训练集）：包含142个样本，占用约8.21 MB存储空间。

数据集大小

下载大小：约711.48 KB
数据集总大小：约8.21 MB

配置信息

配置名称：default
数据文件路径：data/train-*（训练集数据文件）

搜集汇总

数据集介绍

构建方式

该数据集以自噬代码（autophagycode）领域的编程任务为核心，基于Qwen3-0.6B模型在特定超参数配置下生成的数据构建而成。具体而言，数据集采用学习率为0.0001、温度系数为0.2、束搜索宽度为4的生成策略，经过142轮迭代训练得到。每条数据包含任务标识（task_id）、函数入口点（entry_point）、提示文本（prompt）、模型补全结果（completion）、Top-K演化进程（top_k_progression）以及测试用例（test）等结构化字段，形成了从任务输入到模型输出及评估的完整数据链路。

特点

数据集的核心特点在于其精细化的模型生成质量追踪机制，通过top_k_progression字段记录了模型在每一步生成中的Top-K概率分布演化，为分析模型推理路径提供了微观视角。同时，数据集规模精简，仅含142个训练样本，但每个样本均包含完整的编程任务描述与可执行的测试用例，兼顾了数据密度与标注质量。此外，多字段设计使得该数据集不仅可用于训练微调，还能支持对模型生成过程的诊断与可视化分析。

使用方法

数据集以HuggingFace Datasets格式组织，默认配置名称为default，训练集数据文件存放在data/train-*路径下。用户可通过HuggingFace的load_dataset函数直接加载，获取各字段信息。使用方法上，可利用prompt与completion字段进行监督微调任务，借助test字段验证模型输出正确性；科研人员亦可解析top_k_progression字段，分析模型推理置信度与生成策略的关联性，适用于代码生成领域的模型评估与行为分析研究。

背景与挑战

背景概述

在代码生成与程序修复领域，利用大规模语言模型（LLM）进行自动化编程已成为研究热点，其中模型对编程竞赛题目（如HumanEval等基准）的求解能力常被用作衡量其代码理解与生成水平的关键指标。该数据集名为autophagycode_D_mercury_Qwen3-0.6B_lr0.0001_c142_trust_t0.2_g4，由自噬码（autophagycode）团队在近期创建，核心研究问题聚焦于如何通过微调轻量级模型（如Qwen3-0.6B）以提升其在代码补全任务中的表现。数据集包含142个训练样本，每个样本包含任务标识、入口函数、提示词、补全结果及测试用例，专为探索低资源场景下模型对代码逻辑的渐进式学习（top_k_progression）而设计。尽管样本量有限，但该数据集对了解小模型在特定领域（如竞赛级代码生成）的微调边界具有启示意义，为后续研究在数据效率与模型蒸馏方面提供了实证基础。

当前挑战

该数据集所解决的领域问题在于，当前主流代码生成基准（如HumanEval）常依赖大规模数据集与高参数量模型，而小模型在有限数据下如何有效学习代码补全仍是一大挑战。本数据集仅含142个样本，需在极少量监督信号下使Qwen3-0.6B模型掌握从提示到完整实现的映射，对数据增强策略与微调算法的鲁棒性提出严苛要求。构建过程中遇到的挑战包括：如何从竞赛题库中筛选并生成高质量、有代表性的任务示例，确保每个样本的提示与补全逻辑一致且测试用例完备；同时需设计合理的top_k_progression机制，以记录模型在不同生成步长下的推理轨迹，避免因样本稀疏导致过拟合或泛化失败。此外，低学习率（0.0001）与信任阈值（trust_t0.2）的设定需精细调参，以平衡模型收敛速度与生成多样性，防止训练崩溃。

常用场景

经典使用场景

该数据集专注于代码生成与自动修复领域，其经典使用场景在于为大规模语言模型（LLM）提供高质量的指令微调数据。具体而言，数据集包含任务标识、函数入口、自然语言提示、代码补全结果、渐进式优化过程及测试用例等结构化信息，特别适用于训练模型从自然语言描述生成正确代码，或基于测试反馈迭代修复程序缺陷。研究者常利用该数据集评估模型在Python编程任务上的泛化能力，例如根据给定的函数签名和需求描述，生成符合语法规范且能通过单元测试的完整实现。

解决学术问题

该数据集针对性解决了代码生成领域中训练数据匮乏与模型输出可靠性不足的双重挑战。在学术研究中，它常用于探究监督微调与渐进式优化策略对代码质量的影响机制，例如通过top-k渐进选择过程分析模型如何逐步修正语法错误与逻辑漏洞。其引入的测试用例驱动评估框架，为衡量生成代码的功能正确性提供了标准化范式，推动了从简单序列预测向结构化代码合成的研究转向。该数据集填补了指令微调场景下细粒度代码优化轨迹数据的空白，为探索语言模型的迭代推理能力奠定了重要基础。

衍生相关工作

该数据集衍生的经典工作主要集中在代码生成与指令微调的交叉研究方向。研究者利用其设计出基于渐进式反馈的强化学习框架，将代码优化过程建模为马尔可夫决策过程，显著提升了模型在复杂编程赛题上的通过率。另有工作基于此数据集探索知识蒸馏技术，将大模型（如Qwen3系列）的代码生成能力迁移至轻量级学生模型，兼顾效率与性能。这些衍生研究共同推动了代码智能领域从单次生成向交互式修复范式的跨越，并启发后续数据集收录了更多样的编程语言与并行优化策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集