stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: prompt
dtype: string
- name: completion
dtype: string
- name: top_5_progression
dtype: string
- name: test
dtype: string
splits:
- name: train
num_bytes: 4337670
num_examples: 164
download_size: 772899
dataset_size: 4337670
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集源自对自噬相关代码(autophagycode)的深度挖掘与精炼,聚焦于‘D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6’这一特定配置下的生成结果。通过整合大规模语言模型Qwen3-4B在特定策略(trust策略,置信度阈值t1,生成温度g6)下的推理输出,构建了一个包含164条训练样本的高密度代码微调数据集。每条样本由任务标识(task_id)、函数入口点(entry_point)、指令提示(prompt)、模型补全内容(completion)、渐进式top-k推理轨迹(top_k_progression)及标准测试用例(test)组成,形成从问题到解答再到验证的完整闭环。
特点
数据集最显著的特征在于其结构化程度极高,将代码生成任务拆解为多维度字段,尤其‘top_k_progression’字段忠实记录了模型在推理过程中逐步筛选候选答案的渐进轨迹,为研究思维链(Chain-of-Thought)可信度与生成稳定性提供了宝贵素材。训练样本数量虽精简至164条,但每例均包含完整测试用例,可直接用于评估与回归验证,兼顾了数据精炼性与实用性。
使用方法
用户可基于HuggingFace Datasets库加载该数据集,默认配置下直接获取包含164条样本的训练拆分。建议以‘prompt’作为输入,‘completion’作为监督目标,并利用‘test’字段进行离线验证。‘top_k_progression’字段可用于深入分析模型在不同置信度层次下的推理路径偏好,适用于代码生成微调、指令遵循能力评估以及推理可解释性研究等场景。
背景与挑战
背景概述
在大型语言模型(LLM)的微调与对齐研究中,构建高质量的指令数据集是提升模型泛化能力与安全性的关键。该数据集由Mercury团队基于Qwen3-4B模型,结合自噬代码(autophagycode)策略与信任机制(trust)开发,于2024年创建,旨在探索模型在代码生成任务中的自我修正与渐进式演化能力。数据集核心研究问题集中于如何通过多轮迭代的top-k渐进训练(top_k_progression),使模型在保持任务保真度的同时增强对复杂编程问题的响应稳定性。其影响力体现在为代码智能领域的对齐强化学习提供了可复现的微型基准,尤其适用于资源受限场景下的模型行为调优研究。
当前挑战
该数据集主要面临的挑战包括:一是领域问题层面,代码生成任务中模型易产生语法正确但语义偏离的伪正确输出,现有评估指标难以精准量化渐进式修正过程中的知识增益;二是构建过程中,仅含164个训练样本的规模限制了模型对长尾编程模式的泛化能力,且top-k策略中k值的选取缺乏理论指导,可能导致训练噪声累积;此外,依赖Qwen3-4B单一教师模型生成的伪标签存在知识固有限制,跨架构迁移时指令遵循能力可能骤降。
常用场景
经典使用场景
在程序合成与代码生成的研究领域中,该数据集为评估和训练大语言模型在复杂代码推理任务上的表现提供了精细化的基准。其核心特色在于包含了来自在线判题系统的编程问题,并标记了模型生成代码时的逐步推理轨迹(top_k_progression),这使得研究者能够深入分析模型在解题过程中的策略选择与信任校准。经典的用法是将prompt与completion字段配对,用于微调模型以提升其代码生成的正確性,同时利用top_k_progression字段研究模型在候选解空间中的探索行为,进而优化决策机制。
实际应用
在实际应用中,该数据集推动了大语言模型在智能编程辅助系统与教育科技领域的部署。例如,在自动评阅系统中,基于该数据集训练的模型不仅能够判断代码答案的最终正误,还能模拟学生的解题步進过程,提供针对性的错误回溯与策略建议。在软件工程领域,该数据集可用于开发具有自我修正能力的代码生成工具,使模型在面对复杂算法题时能主动调整搜索策略,显著提升高频场景下的代码补全与调试效率。
衍生相关工作
该数据集的独特设计直接催生了若干典型的研究方向。其中一类工作专注于利用逐步推理轨迹构建强化学习环境,将代码生成建模为马尔可夫决策过程,探索基于奖励塑形的策略优化方法。另一类经典工作则借鉴了信任区域(Trust Region)与置信度校准(Confidence Calibration)的思想,基于top_k_progression字段开发新型的模型自我评估机制,以提高代码生成的鲁棒性。此外,部分研究将该数据集作为工具使用,用于对比不同规模模型在推理路径多样性上的差异,从而指导更高效的预训练数据筛选策略。
以上内容由遇见数据集搜集并总结生成



