stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5
Creator: stefanocarrera
Published: 2026-04-25 07:02:14
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4352056 num_examples: 164 download_size: 803652 dataset_size: 4352056 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5，其构建依托于大语言模型Qwen3-4B，采用名为“mercury”的策略进行数据生成，并结合信任机制（trust）与温度参数t1、生成轮数g5等设定，从代码任务中自动筛选与合成高质量的训练样本。数据集中包含164条训练样本，每条样本涵盖任务标识（task_id）、函数入口点（entry_point）、提示词（prompt）、补全代码（completion）、Top-K演化过程（top_k_progression）以及测试用例（test）等字段，结构清晰且富有层次，便于模型学习代码生成与推理。

使用方法

该数据集可直接用于微调大语言模型，特别是在代码生成与自动编程领域。使用时，用户可将train分片加载为训练集，利用prompt字段作为模型输入，completion字段作为目标输出，通过监督学习范式优化模型参数。测试字段（test）可用于评估模型生成的代码是否通过预设用例，实现即时验证。数据集默认以transformers库兼容的格式存储，便于集成到常见训练流水线中，用户亦可基于task_id和entry_point对任务进行细粒度管理，以适配多样化的代码生成需求。

背景与挑战

背景概述

该数据集由autophagycode团队基于Qwen3-4B模型在‘trust’策略下生成，创建于大语言模型安全对齐研究快速发展的时期。核心研究问题聚焦于如何通过合成数据提升模型在敏感任务中的可信度与对齐能力，尤其针对推理过程中逐步生成（progression）的信任机制。数据集包含164条训练样本，涵盖任务标识、入口点、提示、补全及渐进式信任链等字段，为探究模型在复杂推理场景下的安全性提供了结构化数据基础。其发布对推动代码生成与逻辑推理任务中的可信AI研究具有重要参考价值，尤其在细粒度对齐方法的设计与评估方面展现了独特贡献。

当前挑战

当前挑战主要分为两层面。在领域问题层面，数据集中针对‘信任’策略的训练样本数量有限（仅164条），难以全面覆盖现实世界中信任决策的多样性与复杂性，存在模型过拟合与泛化能力不足的风险。在构建层面，生成过程中‘top_k_progression’字段的定义与质量控制缺乏明确标准，人工校验成本高昂；同时，合成数据可能隐性放大原始模型的偏见或安全漏洞，导致对齐效果偏离预期。此外，数据集仅包含单一语言与格式的样本，限制了跨场景迁移能力的验证与改进。

常用场景

经典使用场景

在计算生物学与自然语言处理的交叉领域中，该数据集被广泛用于训练和评估大语言模型在蛋白质自噬相关编码序列上的推理能力。具体而言，研究者通常利用其提供的`prompt`与`completion`字段，构建从序列特征到功能注释的映射任务，进而微调模型以预测未知蛋白质的自噬调控潜力。其`top_k_progression`字段更支持多步推理路径的追踪，为探索蛋白质功能演化的顺序决策过程提供了独特的数据支撑。

解决学术问题

该数据集的核心学术贡献在于解决了自噬相关基因功能预测中标注数据稀缺且噪声较高的难题。通过引入结构化推理任务，它使得大语言模型能够学习到蛋白质序列中隐含的功能逻辑与进化规律，从而突破了传统基于同源比对或结构模板方法的局限性。这项工作不仅提升了功能注释的覆盖率和准确性，还为整合先验知识图谱与深度学习模型提供了新范式，推动了对细胞自噬调控网络的计算解析。

实际应用

在实际应用中，该数据集驱动的模型可被部署于药物发现与精准医学平台，辅助识别与自噬失调相关的疾病靶点，如神经退行性疾病和癌症。例如，通过预测候选蛋白质的自噬相关活性，能够加速针对自噬通路的抑制剂或激活剂筛选流程。此外，该数据集还适用于合成生物学领域，指导工程化细胞中自噬相关回路的设计与优化，从而提升生物制造过程中的代谢效率。

数据集最近研究