stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g5

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g5
Creator: stefanocarrera
Published: 2026-04-25 07:35:28
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g5

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4794357 num_examples: 142 download_size: 827321 dataset_size: 4794357 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

本数据集基于Qwen3-4B基座模型，采用LoRA微调技术，设定学习率为0.0001，对142个任务实例进行参数高效训练。数据来源为AutophagyCode D基准，融合了Mercury评测集的精选样本，经清洗与标准化后，构建为包含任务ID、函数入口点、提示语、补全结果、top-k演进信息及测试用例的六维特征结构。所有样本统一划分为训练集，以支持代码生成任务的少样本学习与模型微调。

使用方法

使用时，可直接通过HuggingFace Datasets库加载default配置下的训练分片。数据集以JSON格式存储，任务ID与入口点用于定位特定问题，prompt与completion字段构成标准的输入-输出对，适合用于监督式微调。结合测试字段对生成结果进行自动评估，并可基于top_k_progression内容开展多轮生成效果或策略对比实验。

背景与挑战

背景概述

该数据集名为autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_trust_t1_g5，由相关研究团队基于Qwen3-4B模型微调生成，创建于近期，专注于代码生成任务的训练与评估。数据集包含142个样本，涵盖任务标识符、提示、补全及测试等字段，旨在探索大语言模型在算法编程与函数补全上的能力。作为自噬码（Autophagycode）系列的一部分，其核心研究问题在于如何通过少量高质量样本与低学习率微调，提升模型在特定代码任务上的生成准确性与可靠性。该数据集在代码智能领域具有潜在影响力，为研究者提供了从提示到完成的可追踪样本，促进对模型逐步推理与生成过程的理解。

当前挑战

该数据集面临的领域问题挑战在于代码生成任务固有的歧义性与逻辑复杂性，模型需从有限提示中准确推断用户意图并生成可执行函数。同时，数据集样本量仅142条，资源稀缺性要求模型具备高效泛化能力，避免过拟合。构建过程中，数据筛选需平衡多样性与质量，确保每个样本的‘top_k_progression’字段准确反映模型最优推理路径，但手动标注或自动生成此类渐进式信息成本高昂且易引入噪声。此外，测试机制的完整性验证亦构成挑战，需设计鲁棒评估以确认生成代码的功能正确性，而非仅依赖形式匹配。

常用场景

经典使用场景

该数据集聚焦于自噬相关编码任务的训练与评估，经典使用场景包括基于自噬基因序列与功能注释的代码生成模型微调。通过提供任务标识符、函数入口点、提示文本及补全结果等结构化字段，研究者可构建监督学习框架，用于训练大型语言模型理解并生成自噬生物学中的特定函数代码。其142条精心标注的样本虽规模精炼，却足以支撑小样本学习与指令微调实验，尤其适用于探索模型在狭小专业领域内的代码理解与生成能力。

解决学术问题

该数据集解决了自噬生物学研究中自动化代码生成缺乏标准训练语料的学术难题。在生物信息学领域，自噬相关函数与算法的实现常依赖手动编码，效率低下且易出错。该数据集通过提供统一格式的代码补全样本，使研究者能够训练模型自动生成符合特定任务需求的代码片段，显著降低了领域内算法复现与工具开发的重复劳动。其意义在于推动自噬研究的计算化进程，为后续的蛋白质交互预测、基因调控网络分析等任务奠定自动化编码基础。

实际应用

实际应用中，该数据集可赋能自噬相关科研工具的快速开发与迭代。例如，生物信息学家可利用基于此数据集微调后的模型，自动生成用于自噬基因注释、突变效应预测或通路模拟的代码，极大缩短从实验设计到数据分析的周期。在药物发现场景中，模型能辅助生成自噬调控因子的筛选脚本，加速靶点验证流程。此外，该数据集还可用于教育场景，帮助初学者通过自动补全功能理解自噬相关代码的编写逻辑。

数据集最近研究