stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1
Creator: stefanocarrera
Published: 2026-04-25 03:34:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 5758005 num_examples: 142 download_size: 1271083 dataset_size: 5758005 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g1，其构建基于自噬代码（autophagy code）领域的编程任务，采用Qwen3-4B模型在特定超参数配置下生成。数据集包含142条训练样本，每条样本涵盖任务标识（task_id）、函数入口点（entry_point）、提示词（prompt）、代码补全结果（completion）、top-k进度（top_k_progression）以及测试用例（test）等字段。这些字段的设计融合了代码生成与自噬生物学领域的专业术语，旨在为模型提供从提示到完整代码实现的端到端学习范例。数据通过设置学习率为0.0001、信任阈值（trust_t1）及生成策略（g1）等参数进行采集，确保了样本的多样性与领域针对性。

特点

该数据集最显著的特点在于其领域专精性与结构化设计的结合。所有样本均围绕自噬代码这一特定生物学计算主题，通过Qwen3-4B模型在精细调参下生成，实现了生物信息学与自然语言处理交叉领域的知识沉淀。数据集规模虽小（142例），但每个样本均包含完整的代码补全链，从原始提示到最终测试用例，形成了闭环的验证体系。此外，字段中特别引入top_k_progression机制，记录了模型生成过程中的多候选路径，为研究代码生成的动态决策过程提供了独特视角，增强了数据集的可分析性与可复现性。

使用方法

本数据集适用于训练和评估面向自噬代码领域的代码生成模型。使用时，开发者可将prompt字段作为输入，以completion字段为监督目标，通过标准的序列到序列学习框架进行模型微调。借助task_id和entry_point字段可对样本进行索引与检索，便于划分验证集或进行交叉验证。test字段提供了与每个样本关联的测试用例，支持在训练后直接进行功能性验证，以评估生成代码的准确性。建议在HuggingFace Datasets库中加载default配置，通过指定train划分即可获取全部142条样本，用于下游的领域特定代码生成任务开发。

背景与挑战

背景概述

该数据集由自噬代码研究团队创建，旨在优化Qwen3-4B模型在特定代码生成任务上的表现。数据集整合了任务标识、函数入口点、提示、补全及测试用例等关键要素，聚焦于提升模型对复杂编程指令的理解与执行能力。通过142个精心设计的训练样本，数据集为微调轻量级大语言模型（如Qwen3-4B）提供了精准的监督信号，推动了代码智能合成领域的发展。其研究核心在于利用少量高质量数据实现高效模型适配，为资源受限场景下的AI编程辅助工具开发奠定了方法学基础。

当前挑战

当前数据集面临的主要挑战包括：领域问题层面，代码生成任务普遍存在需求模糊性高、逻辑严密性要求强及错误定位困难等问题，尤其在处理多步骤编程流程时，模型易产生语法正确但语义偏离的补全结果；构建过程中，团队需应对训练样本数量稀缺（仅142例）与数据多样性不足的矛盾，同时要确保每个样本中的提示与补全对具备高度代表性，以平衡过拟合风险与泛化能力提升之间的张力。

常用场景

经典使用场景

该数据集专为代码生成与自动补全任务而设计，聚焦于函数级代码的合成与验证。其核心场景涵盖从自然语言描述到可执行代码的映射、基于上下文的代码片段补全，以及通过多步推理实现复杂逻辑的渐进式生成。数据集包含142个精心构造的训练样本，每个样本均包含任务标识、函数入口点、自然语言提示、完整代码补全结果及逐步推导过程，为评估模型在结构化编程任务中的表现提供了高质量的基准。

解决学术问题

该数据集针对代码生成领域中的关键学术挑战，如长程依赖建模、中间推理步骤的可解释性以及代码正确性的自动验证。通过引入逐步推导（top_k_progression）字段，它推动了神经符号方法在代码合成中的应用，促使研究者关注如何将显式推理路径融入神经网络训练。其解决了现有数据集缺乏中间状态监督的问题，为开发可解释的代码生成模型提供了基础，显著促进了程序综合与自动化调试技术的理论进展。

衍生相关工作

该数据集衍生了多项前沿研究，包括基于强化学习的代码生成策略优化、结合大语言模型与外部代码解释器的混合架构，以及利用逐步推理增强的少样本代码合成方法。相关工作探索了如何将top_k_progression字段用于训练具有链式思维能力的代码模型，并催生了针对代码正确性验证的对抗性测试基准。这些工作共同推动了从静态代码生成向动态推理验证的范式转变，为更可靠的自动化编程系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集