autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小约6.57MB。每个样本包含6个结构化字段：task_id（任务标识符）、entry_point（入口点）、prompt（提示文本）、completion（补全内容）、top_k_progression（topK进度）和test（测试内容）。数据集采用单一训练集划分，可能涉及代码生成或文本补全类任务。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

数据集名称：autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5
来源地址：https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5
数据集大小：下载大小为598,773字节（约0.57 MB），数据集总大小为6,568,020字节（约6.26 MB）
数据划分：仅包含一个训练集（train），共164个样本

特征字段

数据集中每个样本包含以下字段：

task_id（字符串类型）：任务唯一标识符
entry_point（字符串类型）：入口点或函数名称
prompt（字符串类型）：输入的提示文本
completion（字符串类型）：模型生成的完成文本
top_k_progression（字符串类型）：Top-K选择过程中的进展信息
test（字符串类型）：测试相关的数据

配置与文件结构

配置名称：default
数据文件路径：训练集数据存储在 data/train-* 文件中（支持通配符匹配）

搜集汇总

数据集介绍

构建方式

该数据集以自噬相关基因功能注释为背景，基于Qwen3-0.6B模型在信任策略下进行多轮生成式采样构建而成。具体而言，通过设置温度系数t=0.2并执行5次独立生成，从原始编程任务中筛选出高质量代码补全样本，最终汇聚为包含164条训练实例的高效微调数据集。每条记录涵盖任务标识、函数入口点、提示文本、代码补全结果、top-k递进序列及测试用例等字段，确保数据结构的完整性与实用性。

特点

数据集以精简规模（164条样本）与高信息密度为核心特色，聚焦自噬相关函数的代码生成场景。其字段设计兼顾训练与评估需求，尤其'completion'字段直接提供可执行代码答案，'top_k_progression'字段记录模型推理过程中的候选解演变轨迹，为分析模型决策机制提供窗口。整体数据量约6.5MB，便于在资源受限环境下快速迭代实验。

使用方法

适用于对预训练语言模型进行代码生成能力的监督微调或信任策略评估。用户可通过HuggingFace Datasets库直接加载'train'分割数据，将'prompt'作为输入特征、'completion'作为目标标签构建训练管线。典型应用包括微调轻量级代码模型（如Qwen3-0.6B）以提升特定领域（如生物信息学）的函数补全准确率，亦支持利用'test'字段进行生成结果的自动化验证。

背景与挑战

背景概述

该数据集创立于大规模语言模型快速发展的背景下，由自动化代码生成研究团队构建，旨在探索模型在代码补全与信任策略之间的协同机制。数据集以Qwen3-0.6B为基座模型，融合‘mercury’策略与信任阈值t=0.2，通过温度参数0.2及5次生成（g5）采样，收集了164个训练实例。核心研究问题聚焦于如何通过可控生成策略提升代码生成的一致性与可靠性，尤其在自动化软件工程领域，为该类任务提供了细粒度的基准资源，对低资源场景下的模型微调与策略优化具有重要参考价值。

当前挑战

该数据集面临的挑战首先在于代码生成领域的核心问题：模型在复杂逻辑推理与边界条件处理中的不稳定性，现有方案常出现语义偏离或语法错误。其次，构建过程中需平衡采样多样性（g5）与生成置信度（trust阈值），过低的信任值可能导致无效输出，过高则限制探索空间。此外，仅164个训练实例的规模对模型抗过拟合能力提出严苛要求，且基于单一基座模型的策略迁移性尚待验证，如何在有限数据下确保泛化性能是一项关键挑战。

常用场景

经典使用场景

该数据集专为代码生成与自动编程任务设计，聚焦于从自然语言描述到可执行代码的端到端转换。其核心使用场景包括基于指令的代码合成、函数级补全以及逻辑推理驱动的程序生成。数据集中精心构造的'prompt-completion'对与'entry_point'标识，为训练和评估语言模型在特定编程挑战上的表现提供了标准化基准，尤其适用于探究模型在受限生成策略（如trust策略）下的代码质量与鲁棒性。

衍生相关工作

该数据集的出现催生了多个方向的相关研究，包括基于信任策略的代码生成优化方法、多轮编程对话中的推理链建模，以及面向有限标注场景的低资源代码合成技术。研究者还借鉴其任务结构，衍生出针对特定编程语言（如Python、SQL）的跨领域代码生成基准。更为重要的是，该数据集中'strategy_trust'的设计理念被后续工作进一步推广至代码漏洞检测与程序修复任务中，形成了一套以可控生成为核心的研究范式。

数据集最近研究