stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: prompt
dtype: string
- name: completion
dtype: string
- name: top_5_progression
dtype: string
- name: test
dtype: string
splits:
- name: train
num_bytes: 5758005
num_examples: 142
download_size: 1271083
dataset_size: 5758005
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1,其构建基于自噬代码(autophagy code)领域的编程任务,采用Qwen3-4B模型在特定超参数配置下生成。数据集包含142条训练样本,每条样本涵盖任务标识(task_id)、函数入口点(entry_point)、提示词(prompt)、代码补全结果(completion)、top-k进度(top_k_progression)以及测试用例(test)等字段。这些字段的设计融合了代码生成与自噬生物学领域的专业术语,旨在为模型提供从提示到完整代码实现的端到端学习范例。数据通过设置学习率为0.0001、信任阈值(trust_t1)及生成策略(g1)等参数进行采集,确保了样本的多样性与领域针对性。
特点
该数据集最显著的特点在于其领域专精性与结构化设计的结合。所有样本均围绕自噬代码这一特定生物学计算主题,通过Qwen3-4B模型在精细调参下生成,实现了生物信息学与自然语言处理交叉领域的知识沉淀。数据集规模虽小(142例),但每个样本均包含完整的代码补全链,从原始提示到最终测试用例,形成了闭环的验证体系。此外,字段中特别引入top_k_progression机制,记录了模型生成过程中的多候选路径,为研究代码生成的动态决策过程提供了独特视角,增强了数据集的可分析性与可复现性。
使用方法
本数据集适用于训练和评估面向自噬代码领域的代码生成模型。使用时,开发者可将prompt字段作为输入,以completion字段为监督目标,通过标准的序列到序列学习框架进行模型微调。借助task_id和entry_point字段可对样本进行索引与检索,便于划分验证集或进行交叉验证。test字段提供了与每个样本关联的测试用例,支持在训练后直接进行功能性验证,以评估生成代码的准确性。建议在HuggingFace Datasets库中加载default配置,通过指定train划分即可获取全部142条样本,用于下游的领域特定代码生成任务开发。
背景与挑战
背景概述
该数据集由自噬代码研究团队创建,旨在优化Qwen3-4B模型在特定代码生成任务上的表现。数据集整合了任务标识、函数入口点、提示、补全及测试用例等关键要素,聚焦于提升模型对复杂编程指令的理解与执行能力。通过142个精心设计的训练样本,数据集为微调轻量级大语言模型(如Qwen3-4B)提供了精准的监督信号,推动了代码智能合成领域的发展。其研究核心在于利用少量高质量数据实现高效模型适配,为资源受限场景下的AI编程辅助工具开发奠定了方法学基础。
当前挑战
当前数据集面临的主要挑战包括:领域问题层面,代码生成任务普遍存在需求模糊性高、逻辑严密性要求强及错误定位困难等问题,尤其在处理多步骤编程流程时,模型易产生语法正确但语义偏离的补全结果;构建过程中,团队需应对训练样本数量稀缺(仅142例)与数据多样性不足的矛盾,同时要确保每个样本中的提示与补全对具备高度代表性,以平衡过拟合风险与泛化能力提升之间的张力。
常用场景
经典使用场景
该数据集专为代码生成与自动补全任务而设计,聚焦于函数级代码的合成与验证。其核心场景涵盖从自然语言描述到可执行代码的映射、基于上下文的代码片段补全,以及通过多步推理实现复杂逻辑的渐进式生成。数据集包含142个精心构造的训练样本,每个样本均包含任务标识、函数入口点、自然语言提示、完整代码补全结果及逐步推导过程,为评估模型在结构化编程任务中的表现提供了高质量的基准。
解决学术问题
该数据集针对代码生成领域中的关键学术挑战,如长程依赖建模、中间推理步骤的可解释性以及代码正确性的自动验证。通过引入逐步推导(top_k_progression)字段,它推动了神经符号方法在代码合成中的应用,促使研究者关注如何将显式推理路径融入神经网络训练。其解决了现有数据集缺乏中间状态监督的问题,为开发可解释的代码生成模型提供了基础,显著促进了程序综合与自动化调试技术的理论进展。
衍生相关工作
该数据集衍生了多项前沿研究,包括基于强化学习的代码生成策略优化、结合大语言模型与外部代码解释器的混合架构,以及利用逐步推理增强的少样本代码合成方法。相关工作探索了如何将top_k_progression字段用于训练具有链式思维能力的代码模型,并催生了针对代码正确性验证的对抗性测试基准。这些工作共同推动了从静态代码生成向动态推理验证的范式转变,为更可靠的自动化编程系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



