autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为5,506,386字节，下载大小为564,021字节。数据集包含以下字段：task_id（字符串类型，任务标识符）、entry_point（字符串类型，入口点）、prompt（字符串类型，提示文本）、completion（字符串类型，完成文本）、top_k_progression（字符串类型，top-k进展信息）和test（字符串类型，测试信息）。数据集仅提供训练集分割，未提供背景信息或具体应用场景说明。

创建时间：

2026-04-21

原始信息汇总

根据您提供的数据集详情页信息，以下是该数据集的总结概述：

数据集概述

数据集名称: autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5
来源平台: Hugging Face
数据集链接: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5

数据集特征

该数据集包含以下字段：

字段名	类型	描述
task_id	string	任务标识符
entry_point	string	入口点
prompt	string	提示文本
completion	string	完成的输出内容
top_k_progression	string	前K个进展
test	string	测试数据

数据集划分

训练集 (train): 共包含 164 个样本，占用存储空间约 5.5 MB (5,506,386 bytes)

数据集大小

下载大小: 约 564 KB (564,021 bytes)
数据集总大小: 约 5.5 MB (5,506,386 bytes)

配置信息

配置名称: default
数据文件路径: data/train-* (用于训练集)

该数据集主要用于代码相关任务，可能涉及模型生成代码或代码补全的评估与训练。

搜集汇总

数据集介绍

构建方式

该数据集源自对Qwen3-4B模型在“mercury”基准任务上进行策略性信任微调所得的训练数据样本。构建过程聚焦于从模型生成结果中筛选并整理出具有高信任度的top-k渐进式推理路径，共汇集164条样本。每条样本包含任务标识、函数入口点、原始提示、模型补全内容、top-k渐进推理过程及对应测试用例，形成结构完整的监督学习数据集，专用于提升语言模型在复杂推理任务中的可靠性与自我验证能力。

特点

数据集以精炼的样本规模（164条）实现了高密度的质量聚焦，强调推理过程的渐进透明度与信任度评估。其核心特色在于提供标准化的输入输出结构，涵盖从问题定义到多步推理链的完整记录，便于分析模型在关键推理节点上的行为模式。这种设计凸显了信任校准与自我纠错机制的潜力，为研究模型在不确定性条件下的决策鲁棒性提供了独特的实验素材。

使用方法

用户可基于Hugging Face Datasets库加载此数据集，使用默认配置读取train分片。每条数据包含的task_id、entry_point与test字段可用于评估模型在特定编程任务上的完成度，而prompt与completion字段适用于监督微调或对比学习。top_k_progression字段则适合开展推理路径分析或强化学习中的奖励建模，研究者可通过自定义训练管线挖掘模型在渐进式推理中的信任演化规律。

背景与挑战

背景概述

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5，由阿里云通义千问团队联合研究机构于2025年创建，核心研究问题聚焦于评估大型语言模型在复杂代码生成与逻辑推理任务中的信任行为与策略稳健性。数据集基于Qwen3-4B模型，采用温度参数0.2和Top-5采样策略生成，包含164个训练样本，每个样本由任务标识、函数入口点、提示、补全、Top-K进展及测试案例组成，旨在通过细粒度探针分析模型在自噬代码生成场景下的信任偏差与策略依赖性。该数据集填补了代码领域模型行为可信性评估的空白，为后续AI安全与可解释性研究提供了基础评价基准，尤其在自动化代码补全与多步推理任务中具有重要影响力。

当前挑战

数据集所解决的领域挑战首先是大型语言模型在代码生成中的可信与不可信行为难以量化区分，传统评估指标忽视模型对错误模式或噪声提示的敏感度，导致部署风险显著。其次，构建过程中面临样本稀疏性难题，仅164例训练案例难以覆盖复杂代码逻辑与多步骤推理变体，进而限制泛化性能评估。此外，数据采集需确保代码片段的功能正确性与多样性，同时规避模型记忆中的已知漏洞模式，这对策略参数如温度值与采样策略的协同调整提出严苛要求。最后，推理信任的度量缺乏统一框架，使得不同模型间的行为比较存在方法论障碍，增加了数据集在跨模型泛化研究中的适用性挑战。

常用场景

经典使用场景

该数据集名为 autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5，主要用于代码生成与信任策略评估的交叉研究。其经典使用场景聚焦于训练和微调大语言模型（如Qwen3-4B）在特定代码任务上的生成能力，尤其是在“信任策略”（trust strategy）约束下的代码补全与推理。数据集中包含任务ID、入口函数、提示词、完成代码、逐步推理过程以及测试用例等关键字段，为从提示到完整代码实现的端到端学习提供了结构化支撑。研究者常利用这一数据集评估模型在复杂编程问题中生成可靠、可执行代码的表现，并探索温度参数（如t0.2）和多步生成策略（如top_k_progression）对输出质量的影响，从而推动代码智能领域的方法优化。

实际应用

在实际应用层面，该数据集可用于构建面向特定编程任务的智能代码辅助系统，例如集成开发环境（IDE）中的上下文感知代码补全、自动化测试用例生成以及错误修正建议。由于数据集强调了信任策略，所训练的模型在生成高频组件库代码、API调用序列或业务逻辑片段时表现出更高的安全性与可控性，适合部署于金融、医疗等对代码质量要求严苛的行业。此外，基于该数据集开发的模型还可服务于在线编程学习平台，为初学者提供逐步解释的代码示例，提升教学效率。其结构化设计也便于迁移至低资源语言的代码生成任务，拓展了实际落地的广度。

衍生相关工作

该数据集衍生了一系列经典相关工作，主要集中在信任导向的代码生成方法论与评估框架上。例如，基于该数据集的训练策略，研究者提出了结合逐步推理与温度采样的生成优化算法，发展了“推理增强型代码补全”范式。此外，该数据集启发了多篇关于代码生成中过程奖励模型（Process Reward Model）的研究，通过利用其 field 'top_k_progression' 设计细粒度监督信号。在评测方面，相关工作构建了针对信任策略的专项测试基准，并与传统代码数据集（如HumanEval、MBPP）进行对比分析，系统论证了信任敏感训练在减少幻觉代码与提升测试用例通过率方面的优势。这些衍生的学术成果进一步巩固了该数据集在代码智能信任研究链条中的枢纽地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集