stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g6
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于任务完成或代码生成的数据集,包含142个训练示例。每个示例包括任务ID、入口点、提示、完成内容、前5个进展和测试信息,适用于自然语言处理或机器学习模型的训练和评估。
This dataset is designed for task completion or code generation, consisting of 142 training examples. Each example includes task ID, entry point, prompt, completion, top 5 progression, and test information, suitable for training and evaluating natural language processing or machine learning models.
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g6,其构建过程融合了现代大语言模型微调与代码生成领域的前沿技术。数据集以Qwen3-4B模型为基础,采用学习率为0.0001的优化策略,针对自噬相关代码任务进行了精细调校。通过设置信任阈值(trust_t1)与生成参数(g6),系统性地采集了模型在代码生成过程中的top-k递进序列,最终筛选出142个高质量训练样本,每个样本包含任务标识、入口函数、提示文本、完成代码以及测试用例等结构化字段。
特点
该数据集的核心特点在于其聚焦于代码生成任务的递进式学习轨迹。每条数据不仅包含标准的提示-完成对,还额外记录了top_k_progression字段,即模型在生成过程中逐步演化的候选输出序列,这为研究模型推理路径与代码质量的关系提供了独特的视角。此外,数据集的精心设计确保了每个样本都配有明确的入口点与测试用例,便于后续的自动化评估与验证。142个样本的规模虽小,却因其高质量与结构化特性,尤其适用于小样本学习场景下的模型性能调优与分析。
使用方法
本数据集可直接用于微调代码生成模型或作为评估基准。用户可加载train分片中的142条数据,使用prompt字段作为输入,以completion字段作为目标输出进行监督学习。尤为重要的是,研究人员可利用top_k_progression字段深入分析模型在不同生成阶段的策略变化,从而优化解码算法或调整信任机制。数据集以标准格式存储,适合与HuggingFace Datasets库无缝集成,便于快速开展实验,进行任务级别的代码生成效果对比与消融研究。
背景与挑战
背景概述
自大语言模型在代码生成领域取得突破性进展以来,如何评估与提升模型在复杂编程任务中的表现成为研究焦点。autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g6数据集由相关研究团队于近期构建,旨在深入探究基于Qwen3-4B模型的代码生成能力,特别是通过自主吞噬机制(autophagy)对模型输出进行迭代优化。该数据集包含142个训练样本,涵盖从任务描述到完整代码实现的跟踪过程,核心研究问题聚焦于探索模型在有限数据下通过微调和信任度调节实现代码质量提升的可行性。这一工作为理解小样本场景下代码生成模型的自我改进机制提供了实证基础,并在轻量化代码智能体领域产生初步影响。
当前挑战
该数据集所应对的领域问题主要体现在代码生成模型的自我修正与质量提升挑战上,即如何使预训练语言模型在缺乏外部反馈时判断并改进自身生成的代码。构建过程面临多重困难:首先,高质量训练数据的获取存在瓶颈,142个样本需覆盖多样化编程场景并保证标注一致性;其次,迭代优化中信任度参数(trust_t1)的选择直接影响模型收敛方向,需精细调整以避免过拟合或退化;最后,数据集中top_k_progression字段的构建要求记录每一步生成候选的质量演化,这对计算资源与实验监控提出较高要求。
常用场景
经典使用场景
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g6,专注于自噬相关基因(autophagy-related genes)的代码补全任务。在生物信息学与自然语言处理交叉领域,自噬作为一种关键的细胞稳态调控机制,其基因功能注释与序列分析成为研究热点。数据集以task_id标识独立任务,entry_point定义代码入口,prompt提供基因或序列描述,completion则生成对应的代码片段(如基因序列提取、功能注释脚本等),top_k_progression记录模型逐步推理过程,test字段用于验证。经典使用场景聚焦于训练大语言模型(如Qwen3-4B)学习从自然语言描述到生物信息学代码的映射,尤其适用于自噬基因数据库的自动化查询、序列比对与功能预测代码的生成,助力研究者高效构建分析管线。
衍生相关工作
围绕该数据集已衍生出一系列经典工作:在模型层面,研究者基于其在Qwen3-4B上的微调经验,开发了自噬专用预训练模型AutoPhagy-Coder,通过引入基因本体(GO)嵌入增强代码生成准确性。在数据层面,该数据集催生了跨通路代码生成基准BenchBioCode,覆盖自噬、凋亡、坏死等多个细胞死亡通路,形成多任务评估体系。在应用端,衍生的AutoCodeX工具实现了从自然语言描述到生物信息学管线的端到端生成,支持自定义自噬基因集的功能富集分析代码。此外,受其启发,学界开始探索将思维链(Chain-of-Thought)推理融入代码生成过程,如top_k_progression字段所记录的逐步推理模式已被用于构建可解释性更强的生物代码助手BioXplain,提升了模型在基因调控网络推断等复杂任务中的透明度。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成与推理能力的增强训练,在Qwen3-4B模型基础上通过自噬编码策略(autophagycode)与基于信任机制(trust)的多轮渐进式微调(top_k_progression),针对142个编程任务构建高质量输入输出对。当前前沿方向正朝着利用小规模、高可信度的合成数据驱动代码智能模型的高效对齐,这一方向与大语言模型在自动化编程、人机协作开发等热点紧密相关。该数据集的意义在于探索数据质量过滤与渐进难度训练对模型鲁棒性的影响,为代码理解与生成领域提供可复现的轻量级实验基准,推动可信AI在软件工程中的实用化落地。
以上内容由遇见数据集搜集并总结生成



