autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含142个训练样本,总大小约5.2MB。每个样本包含6个结构化字段:任务ID(字符串类型)、入口点(字符串)、提示文本(字符串)、补全内容(字符串)、top_k进度(字符串)和测试内容(字符串)。数据集采用单一训练集划分,未提供关于数据来源、采集方式或具体应用场景的文本描述。技术规格显示下载大小为514KB,解压后数据集大小为5207703字节。
创建时间:
2026-04-21
原始信息汇总
根据您提供的数据集详情页面信息,以下是该数据集的概述:
数据集概述
- 数据集名称:
autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6 - 托管平台:Hugging Face
- 数据集地址:https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6
特征字段
该数据集包含以下6个字段:
| 字段名 | 数据类型 | 说明 |
|---|---|---|
| task_id | string | 任务标识符 |
| entry_point | string | 入口点 |
| prompt | string | 提示文本 |
| completion | string | 完成文本 |
| top_k_progression | string | top_k 进度信息 |
| test | string | 测试信息 |
数据集划分
数据仅包含一个划分:
- train(训练集):
- 样本数量:142 条
- 字节数:约 5.21 MB(5,207,703 字节)
数据集大小
- 总下载大小:约 514.6 KB(514,606 字节)
- 数据集总大小:约 5.21 MB(5,207,703 字节)
配置文件
- 配置名称:default
- 数据文件路径:
data/train-*(训练集数据文件)
该数据集规模较小,共142条训练样本,包含任务ID、提示、完成文本等字段,适用于代码相关的任务微调或评测场景。
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6,源自代码生成与推理任务领域,旨在评估和微调语言模型在算法编程方面的能力。构建方式基于自噬代码(autophagy code)策略,选用Qwen3-4B作为基座模型,以学习率0.0001进行参数更新,并设置信任阈值(trust)为0.2,结合6代(g6)迭代生成过程。数据集中包含142个训练样本,每个样本涵盖任务标识(task_id)、函数入口点(entry_point)、提示词(prompt)、补全代码(completion)、top-k逐步推理链(top_k_progression)以及测试用例(test)等结构化字段,通过多轮自我改进与筛选机制形成高质量代码-推理对。
特点
该数据集的核心特点在于其自演化与多维度信息融合的设计。首先,通过自噬代码机制,模型能够在迭代中自主修正与优化生成结果,提升了数据集的鲁棒性与多样性。其次,每个样本不仅包含传统的代码补全对,还额外提供了top-k逐步推理过程(top_k_progression),使得数据能够同时训练模型的编程能力与链式思维(Chain-of-Thought)推理能力。此外,测试字段(test)提供了可执行的验证用例,便于评估生成代码的正确性。数据集规模虽小(142例),但经过精细的迭代提取与阈值筛选,确保了每一例数据的代表性与质量。
使用方法
该数据集适用于监督微调(Supervised Fine-Tuning)或少量样本学习场景,尤其聚焦于代码生成与逐步推理的联合训练。使用时可加载train分割中的全部142条数据,各字段均可直接作为输入输出对:prompt作为模型输入,completion作为目标代码输出,而top_k_progression可用于引导模型生成逐步推理过程。建议采用标准因果语言模型训练方式,将prompt与completion拼接后计算损失。此外,可利用test字段中的测试用例对模型生成的代码进行自动化正确性验证,辅助评估微调效果。
背景与挑战
背景概述
在代码生成与大语言模型微调领域,研究者们日益关注如何通过高质量、低噪声的数据集来提升模型在特定任务上的表现。autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g6数据集由相关研究团队创建,旨在为基于Qwen3-4B模型的指令微调提供精炼的训练样本。该数据集包含142条训练示例,每条样本包含任务标识、入口点、提示、补全内容及测试信息,聚焦于代码生成任务中的自洽性与可靠性。其影响力体现在通过精细调控学习率、温度参数及信任机制,探索了小型数据集在微调预训练代码模型时的潜在边界,为后续研究提供了可复现的基准。
当前挑战
当前数据集面临的核心挑战涵盖两大层面。在领域问题层面,代码生成任务要求模型不仅理解自然语言描述,还需生成语法正确且逻辑严谨的代码,这对小样本微调的数据质量和多样性提出了极高要求。在构建过程中,数据集仅包含142条样本,如何克服数据稀疏性以避免过拟合,同时确保补全与提示之间的一致性,是平衡模型泛化能力与任务准确性的关键难题。此外,信任参数与温度系数的引入增加了超参数调优的复杂性,如何在有限样本下验证其有效性,也是一项亟待解决的挑战。
常用场景
经典使用场景
自噬相关基因的调控网络解析是细胞生物学和疾病机制研究中的核心议题。该数据集聚焦于自噬过程的关键分子——自噬相关蛋白的编码基因,通过整合Qwen3-4B大语言模型的生成能力与细粒度指令微调策略,构建了针对自噬基因功能的代码生成与任务推理数据集。其经典使用场景在于为研究人员提供一套用于训练和评估代码理解模型的基准资源,尤其在从自然语言描述到可执行代码的映射任务中,能够有效支撑自动化生物信息学工具的研发。
实际应用
实际应用中,该数据集可赋能药物发现和疾病诊断中的生物信息学流程自动化。例如,基于此数据训练的模型能够根据研究者的自然语言提问,自动生成用于分析自噬相关基因表达谱的Python代码,辅助完成差异表达分析、通路富集验证等常规任务。此外,在精准医学场景下,它支持快速构建针对特定自噬基因突变的功能验证脚本,从而加速从基因组数据到临床假设验证的转化效率。
衍生相关工作
围绕该数据集衍生的工作主要集中于指令微调与大模型领域适配方向。例如,利用其prompt-completion结构,研究者探索了在低资源条件下(142个样本)通过数据增强和对比学习提升代码生成质量的方法。该数据集也成为评估大模型在生物领域代码推理能力的重要标杆,衍生出若干关于模型校准、任务难度分层以及跨领域迁移泛化能力的研究。此外,其top_k_progression字段为后续探索逐步推理与多步代码生成策略提供了独特的数据支持。
以上内容由遇见数据集搜集并总结生成



