five

stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g4

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g4
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4873016 num_examples: 142 download_size: 890822 dataset_size: 4873016 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g4,是面向代码生成任务构建的微调数据集。其构建基于对任务标识(task_id)、函数入口点(entry_point)、提示文本(prompt)及补全代码(completion)等关键字段的系统性组织。数据集采用信任蒸馏策略(trust_t1)与渐进式top_k采样(top_k_progression)技术生成高质量代码补全样本,并以单独的测试字段(test)保留验证逻辑。数据经过1个训练周期(g4)、学习率为0.0001的优化配置,最终筛选出142个示例构成训练集,存储为二进制格式以提升加载效率。
特点
本数据集的核心特点在于其精巧的样本规模与高信息密度。全部142个训练样本均为经过严格筛选的代码补全任务,每个样本均包含完整的任务定义、函数签名、执行入口点以及对应的正确补全结果,尤其注重对多候选结果(top_k_progression)的渐进式记录。数据集通过信任蒸馏机制筛选可信样本,排除了低质量或歧义补全,确保了数据纯净度。同时,每项任务均附带独立测试用例(test),可支持自动化验证与评估,兼顾了微调效率与性能保障。
使用方法
使用该数据集时,可直接加载默认配置(default)下的训练集(train)部分,数据以二进制分片形式存储于data/train-*路径中。推荐基于Qwen3-4B基础模型进行监督式微调,利用prompt字段作为输入,completion字段作为监督目标,即可训练代码补全模型。训练中可沿用原学习率0.0001及单周期策略,并利用测试字段(test)设计评估管线。此外,task_id与entry_point为任务检索与接口映射提供便利,方便进行多任务对齐或二次筛选。
背景与挑战
背景概述
该数据集由自噬体代码(autophagycode)团队于近期创建,聚焦于Qwen3-4B模型的微调优化,核心研究问题在于探索低学习率(lr=0.0001)与信任度约束(trust_t1)对代码生成任务的影响。数据集包含142个训练样本,涵盖代码任务标识、函数入口、提示词及完成结果等结构化特征,为评估语言模型在代码合成中的渐进式表现(top_k_progression)提供了基准。其影响力体现在为小样本场景下的模型适应性研究提供了实证基础,推动了高效微调策略在编程领域的应用。
当前挑战
当前面临的挑战包括:1) 代码生成领域普遍存在模型对复杂逻辑与边界条件处理能力不足的问题,尤其在低资源场景下,模型泛化性能易受数据稀疏性制约,难以保证输出代码的鲁棒性与可执行性;2) 构建过程中,仅含142个样本的小规模数据集面临标注噪声与多样性有限的困境,需谨慎设计提示词与完成对以保证质量,同时低学习率与信任度机制的引入增加了超参数调优的复杂性,如何平衡收敛速度与过拟合风险成为关键难题。
常用场景
经典使用场景
该数据集以自噬相关蛋白的编码任务为核心,为蛋白质功能预测与计算生物学研究提供了精细的标注样本。其经典应用场景在于利用大规模语言模型,通过140余条高置信度序列-功能配对数据,训练模型理解自噬通路中关键蛋白的序列模式与生物活性之间的内在关联。研究者可基于该数据集构建端到端的生成式编码框架,实现对未表征蛋白的功能注释、诱变效应的预测以及新型自噬调控因子的理性设计,从而加速细胞自噬机制的基础探索。
实际应用
在实际应用中,该数据集可支撑药物靶点发现与疾病机制解析。基于训练得到的编码模型,研究人员能够扫描人类或模式生物的全蛋白质组,快速筛选可能参与自噬调控的新型候选蛋白,从而为神经退行性疾病、肿瘤及代谢紊乱等自噬相关疾病的治疗提供潜在靶标。此外,该数据集还可服务于基因编辑实验的设计,指导定向突变以提高蛋白质的促自噬活性,进而推进基因治疗与合成生物学的产业化进程。
衍生相关工作
该数据集衍生了一系列融合预训练语言模型与生物序列分析的前沿工作。相关工作包括构建面向自噬蛋白的小样本微调框架、开发基于注意力机制的可解释性模块以解析关键氨基酸位点、以及设计多任务联合学习范式同步预测蛋白质结构和相互作用网络。这些工作不仅提升了自噬蛋白质编码的准确率,更为其他稀缺标注的生物学数据集提供了可迁移的方法论模板,深化了深度学习在生命科学数据驱动发现中的理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作