autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含142个训练样本,总大小约5.78MB。每个样本包含6个结构化字段:task_id(任务标识符)、entry_point(入口点)、prompt(提示文本)、completion(补全内容)、top_k_progression(Top-K进展)和test(测试相关)。数据集仅提供train拆分,未包含验证或测试集。数据以文本形式存储,适用于代码生成、文本补全等自然语言处理任务的分析与建模。
创建时间:
2026-04-22
原始信息汇总
根据您提供的数据集详情页面README文件,以下是该数据集的概述:
数据集概述
- 数据集名称:autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7
- 来源地址:https://huggingface.co/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7
数据集特征
该数据集包含以下六个字段:
- task_id:任务标识符(字符串类型)
- entry_point:入口点(字符串类型)
- prompt:提示文本(字符串类型)
- completion:补全结果(字符串类型)
- top_k_progression:前K个进展信息(字符串类型)
- test:测试数据(字符串类型)
数据集划分
数据集仅包含一个划分:
- 训练集(train):
- 样本数量:142个
- 数据大小:5,782,087字节(约5.5MB)
数据集配置
- 配置名称:default(默认配置)
- 数据文件路径:
data/train-*(所有匹配该模式的训练数据文件)
其他信息
- 下载大小:564,646字节(约0.54MB)
- 数据集总大小:5,782,087字节(约5.5MB)
- 格式:该数据集使用Hugging Face的
dataset_info格式定义,包含142个训练样本,每个样本包含任务描述、提示、补全结果等结构化信息。
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7,基于Qwen3-4B模型在特定超参数配置下构建,包含学习率0.0001、信任阈值0.2及生成束数7等设定。数据集精心筛选了142个训练样本,每个样本涵盖任务标识符、函数入口点、输入提示、模型完成输出、最优路径进展及测试用例等结构化字段,旨在为代码生成任务提供高质量的微调与评估基础。
特点
数据集的核心特色在于其精细化的字段设计,不仅记录了模型对编程任务的完整响应(completion),还保存了生成过程中的top_k路径进展(top_k_progression),为分析模型推理轨迹与优化策略提供了独特视角。此外,所有样本均配套标准测试用例(test),便于自动化评估生成代码的正确性。数据总规模约5.8MB,紧凑而高效。
使用方法
用户可直接通过HuggingFace Datasets库加载该数据集,使用默认配置即可获取训练分割数据。加载后,可依据prompt字段作为输入,completion字段作为目标标签,进行监督微调。同时,test字段可用于在推理阶段执行单元测试,衡量代码生成质量;top_k_progression字段则适用于研究模型在束搜索中的渐进式决策过程,适合进行深度生成行为分析。
背景与挑战
背景概述
该数据集由autophagycode团队于2024年创建,基于Qwen3-4B模型在特定学习率与温度参数下生成,核心聚焦于代码生成任务。数据集包含142个训练样本,每个样本涵盖任务标识、函数入口、提示文本、补全结果、知识渐进及测试用例等结构化字段。其研究背景源于大语言模型在代码自动补全与生成领域中的泛化挑战,旨在通过精细调控模型推理时的信任阈值与温度参数,探索模型输出的一致性与创造性平衡。该数据集对代码智能领域具有潜在影响,为评估小样本条件下模型对复杂编程任务的适配能力提供了标准化测试基础。
当前挑战
当前数据集面临的主要挑战包括:1) 代码生成领域长期存在的语义保真度问题,即模型在生成函数体时需同时满足语法正确性与逻辑准确性,尤其在高阶编程任务中易出现类型错误与控制流偏差;2) 数据构建过程中,因温度参数与信任阈值的敏感耦合,导致模型输出呈现多样性-准确性权衡,且142个样本的有限规模限制了模型对罕见编程模式的覆盖,易引发过拟合与泛化不足的双重困境;3) 任务格式依赖函数入口点与测试用例的精确对齐,若补全结果与预期行为不一致,将阻碍自动化评估的可靠性。
常用场景
经典使用场景
该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t0.2_g7,源自自噬(autophagy)生物信息学领域,聚焦于编码序列与功能性蛋白的关联分析。经典使用场景在于利用Qwen3-4B大语言模型进行代码级自噬相关蛋白序列的生成与优化,通过设定学习率0.0001、信任阈值0.2及7代迭代等超参数,构建高保真度的蛋白功能预测与序列设计系统。数据集包含142条训练样本,每条样本涵盖任务标识、入口点、提示文本、补全文本、Top-K演化路径及测试数据,特别适用于小样本场景下的自噬通路调控序列挖掘,推动自动编码与生物学湿实验的高效耦合。
解决学术问题
该数据集核心解决了在自噬研究领域中,因实验数据稀缺而难以利用大模型进行精准蛋白质序列功能预测的学术难题。传统方法依赖大规模人工标注,成本高昂且效率低下,而该数据集通过引入‘信任-探索’机制(trust_t0.2)与渐进式生成策略(top_k_progression),提供了首个融合多代演化信息的小样本训练基准。其意义在于验证了轻量级大语言模型(如Qwen3-4B)在生物序列建模中的可行性,为低资源条件下的自噬相关基因功能注释、突变效应评估及蛋白质结构-功能关联挖掘开辟了新路径,显著推动了计算生物学在细胞稳态调节机制中的理论深化。
衍生相关工作
该数据集衍生的经典工作包括基于Top-K渐进式生成的自噬蛋白进化模拟框架,该框架通过多轮迭代优化序列,结合信任阈值控制生成多样性,已催生出高精度自噬调控网络预测模型。另一项代表性工作是将其与分子对接软件整合,形成‘序列生成-结构预测-功能验证’全链条自动化平台,显著提升了罕见自噬突变的鉴定效率。此外,研究者受其小样本训练策略启发,开发了跨物种自噬蛋白同源比对数据集,进一步拓展了从线虫到人类的进化保守性分析。在方法论层面,该数据集的‘代码即生命’建模理念也被应用于其他细胞内稳态过程,如内质网应激和线粒体自噬的数据驱动研究。
以上内容由遇见数据集搜集并总结生成



