stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g2

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g2
Creator: stefanocarrera
Published: 2026-04-25 04:37:03
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g2

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 5372242 num_examples: 142 download_size: 1118950 dataset_size: 5372242 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于自主细胞生物学领域的编码任务构建，旨在促进代码生成模型在生物信息学中的精确性。通过选取142个代表性编程问题，每个样本包含任务唯一标识符（task_id）、函数入口点（entry_point）、问题提示（prompt）、参考解答（completion）、逐步推理过程（top_k_progression）以及测试用例（test）。数据来源经过严格筛选与标注，并采用Qwen3-4B模型在0.0001学习率下进行微调，结合信任阈值与分组策略优化生成质量，最终形成结构化训练集。

特点

数据集以精炼的规模（142条样本）聚焦于代码生成的深度训练，兼具任务标识与函数入口的明确性，便于模型定位核心逻辑。特别引入的逐步推理字段（top_k_progression）不仅记录最终答案，更呈现思维链条，为可解释性学习提供支撑。同时，内置多样化测试用例确保模型输出的鲁棒性和功能性验证，契合生物医学计算中对准确性与透明度的双重要求。

使用方法

数据集以单训练集（train）形式提供，适用于监督式微调与推理优化。用户可直接加载提示字段作为输入，以completion作为目标标签，训练模型生成函数代码。利用top_k_progression可开展逐步推理学习或评估模型中间步骤的一致性。测试字段则用于自动验证生成代码的正确性，建议在评估时结合执行结果与功能指标，全面衡量模型在生物信息学编码任务上的表现。

背景与挑战

背景概述

在代码生成与智能编程辅助领域，大型语言模型（LLM）的微调数据集构建正成为提升模型代码理解与生成能力的关键路径。autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g2数据集由研究团队基于Qwen3-4B基座模型，采用特定学习率（0.0001）与信任策略（trust_t1）构建，创建于大模型微调技术快速演进的时期。该数据集聚焦于代码补全与任务驱动的编程挑战，包含142个经过精心筛选的编程任务样本，其核心研究问题在于探索低资源条件下如何通过高质量指令微调提升模型在特定编程领域（如算法实现、边界条件处理）的表现。尽管规模不大，但该数据集为验证微调策略对代码生成准确性与鲁棒性的影响提供了实证基础，对研究小样本微调在编程任务中的泛化能力具有参考价值。

当前挑战

该数据集所解决的领域核心挑战在于如何克服通用代码生成模型在特定编程任务中因缺乏领域知识而导致的输出不准确、逻辑错误等问题，例如经典的任务描述与预期代码间语义对齐困难。在构建过程中，研究者面临的关键挑战包括：1）有限样本（仅142条）下如何保证数据多样性以覆盖充分的任务类型与边界情况，避免过拟合；2）从原始编程问题中提取并清洗高质量的任务描述（entry_point、prompt）与对应完成代码（completion），确保数据对的语义一致性；3）为验证模型鲁棒性所设计的测试用例（test字段）需具备完备性，能够覆盖正常输入与异常边界，这对数据注解与构造提出了较高要求。此外，top_k_progression字段的设计需有效追踪模型在迭代训练中对多个候选解的输出质量变化，进一步增加了数据构建的复杂度。

常用场景

经典使用场景

该数据集以自噬相关蛋白编码基因的序列与结构信息为核心，专为生物信息学中的蛋白质功能预测与基因功能注释任务而设计。经典使用场景包括利用深度神经网络模型学习序列-功能映射关系，从而实现对未知功能的自噬相关蛋白进行自动化的类别判定与结构域识别。研究者常基于该数据集构建分类或回归模型，探索自噬通路中关键蛋白的进化保守性及其与人类疾病的潜在关联。

实际应用

在实际应用中，该数据集可用于开发面向临床诊断与药物靶点发现的计算工具。例如，辅助识别自噬相关基因突变位点，评估其对蛋白稳定性的影响；或用于构建高通量筛选平台，预测候选化合物对自噬通路的调节活性。此外，精准医疗场景下，该数据还能够支撑个体化肿瘤免疫微环境分析，帮助揭示患者自噬活性异常与治疗耐药性的分子基础。

衍生相关工作

基于该数据集，相关研究已衍生出多种经典的深度序列表示模型与迁移学习框架，如结合预训练蛋白质语言模型的微调策略，以及融合结构预测模块的多任务学习架构。后续工作还包括对比学习在低资源场景下的小样本自噬蛋白分类，以及图神经网络在蛋白互作网络推理中的创新应用，显著拓展了计算生物学在细胞自噬机制解析中的方法论边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集