autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，每个样本包含6个字段：task_id（字符串类型，表示任务标识）、entry_point（字符串类型，表示入口点）、prompt（字符串类型，表示提示文本）、completion（字符串类型，表示补全内容）、top_k_progression（字符串类型，表示top_k进展）和test（字符串类型，表示测试内容）。数据集总大小为5,368,547字节，下载大小为549,096字节。数据以单一训练集形式组织，存储路径为data/train-*。

创建时间：

2026-04-21

原始信息汇总

根据您提供的数据集详情页面 README 文件内容，以下是对该数据集的核心信息总结：

数据集概述

名称：stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6
来源平台：Hugging Face
数据集大小：下载大小为 549,096 字节（约 549 KB），数据集总大小为 5,368,547 字节（约 5.37 MB）
数据分割：仅包含训练集（train），共 164 个样本

特征字段

该数据集包含以下 6 个特征列：

字段名	类型	说明
`task_id`	string	任务标识符
`entry_point`	string	入口点或函数名称
`prompt`	string	输入提示文本
`completion`	string	模型生成的补全内容
`top_k_progression`	string	Top-K 策略的进展信息
`test`	string	测试相关数据

配置信息

配置名称：default
数据文件路径：data/train-*（通配符匹配训练数据文件）

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6，针对代码生成与推理任务精心构建，聚焦于自噬相关基因D的编码探索。数据集的构建依托于Qwen3-4B模型，采用信任策略（trust strategy）在温度参数0.2下生成6组候选输出，经筛选与后处理形成高质量样本。每条样本包含任务标识（task_id）、函数入口点（entry_point）、提示词（prompt）、模型补全结果（completion）、逐步骤推理轨迹（top_k_progression）以及测试用例（test），结构完整。训练集共164条样本，数据以JSON格式存储，便于加载与解析。

使用方法

使用该数据集时，用户可直接加载HuggingFace上的数据文件，通过默认配置读取train分片中的164条样本。每条数据可作为代码生成微调或评估的输入，尤其适用于研究模型在结构化代码推理中的表现。用户可利用task_id与entry_point建立任务索引，结合prompt与completion进行监督学习；而top_k_progression字段则适合用于链式思维推导或中间状态映射的研究。测试用例字段提供了验证标准，便于自动化评估生成代码的正确性。数据集以标准格式存储，兼容主流深度学习框架的数据加载工具。

背景与挑战

背景概述

该数据集由autophagycode团队于近期构建，旨在评估和优化大规模语言模型在代码生成任务中的可信推理能力。其名称中“mercury_Qwen3-4B”暗示了基座模型为Qwen3-4B，而“strategy_trust_t0.2_g6”则揭示了其采用信任导向策略、温度参数0.2及6次生成采样的实验配置。数据集包含164个训练样本，每个样本涵盖任务标识、函数入口点、提示、补全、top-k进展及测试用例等字段，聚焦于从代码提示到正确补全的映射关系。这一研究问题对提升代码语言模型在实际开发中的可靠性具有重要意义，尤其在高风险场景下，如自动化编程助手和智能代码审查系统。该数据集的出现为代码智能领域提供了细粒度的训练与评估基准，有望推动模型在逻辑一致性、错误鲁棒性及多步推理方面的进展。

当前挑战

该数据集所解决的领域挑战在于，当前代码生成模型常产生语义正确但逻辑欠佳的补全，尤其在复杂多步骤推理中易出现信任偏差或错误累积。构建过程中的挑战主要体现在：1）如何从提示与补全对中精准标注出正确的推理路径，确保top_k_progression字段真实反映模型渐进式改进能力；2）在有限样本下（仅164例），需设计高质量的任务标识与测试用例，以防止过拟合并保证泛化性；3）温度参数t0.2及6次采样策略需权衡探索与利用，避免生成结果过于随机或机械重复。此外，特征中entry_point与prompt的衔接机制设计也需兼顾多样性与领域特异性，方能有效驱动模型沿着可信推理轨迹演进。

常用场景

经典使用场景

该数据集聚焦于代码生成与信任策略优化的交叉领域，尤其适用于大语言模型在编程任务中的细粒度行为研究。其经典使用场景包括基于提示工程的代码补全、多步推理链的评估，以及通过top_k_progression字段追踪模型在生成代码时的逐步决策过程，从而深入分析不同信任阈值与生成策略对代码质量的影响。

解决学术问题

该数据集解决了当前学术研究中关于大语言模型在代码生成任务中可解释性与可靠性不足的问题。通过记录模型在多步生成中的信任演化轨迹，研究者得以量化模型在不同复杂度任务中的不确定性，并评估信任策略对生成结果正确性的调节作用。这一设计为理解大型模型的内部决策机制提供了新的实验范式，推动了代码智能领域中模型鲁棒性与安全性的研究。

实际应用

在实际应用中，该数据集可用于构建具备动态信任评估的智能编程助手，帮助开发者在自动生成代码时识别潜在错误或低置信度片段。例如，在自动化测试生成、代码审查辅助及教育编程环境中，可依据模型的信任得分调整输出策略，显著提升代码生成的实用性与可靠性。

数据集最近研究