five

stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4759330 num_examples: 164 download_size: 790223 dataset_size: 4759330 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8,是在大型语言模型与自动化代码生成研究背景下构建的专项训练数据集。其构建依托于Qwen3-4B模型,采用名为'mercury'的策略框架,通过信任机制(trust)与第一轮生成(t1)结合8个生成样本(g8)的方式,对代码补全任务进行多角度采样与筛选。数据集共包含164个训练样本,每个样本包含任务标识(task_id)、函数入口(entry_point)、提示文本(prompt)、补全结果(completion)、Top-K推理过程(top_k_progression)以及测试用例(test)六个字段,以结构化方式保留了模型从提示到最终输出的完整推理链条。
特点
该数据集最为显著的特点在于其小而精的规模与丰富的推理结构。尽管仅包含164条训练记录,但每条样本均完整记录了模型在代码生成任务中的Top-K渐进式推理轨迹,为研究模型在信任策略下的代码生成行为提供了微观视角。数据集采用统一的字段设计,将输入提示、输出补全与多层推理过程分离存储,便于研究者独立分析各阶段对生成质量的影响。此外,其命名中蕴含的'策略信任'与'多轮采样'机制暗示了数据集中包含对模型自我修正与不确定性建模的探索,这在代码生成领域具有较高的实验价值。
使用方法
使用本数据集时,研究人员可直接通过HuggingFace数据集加载库(datasets)加载,指定配置名为'default',仅包含训练划分(split='train')。数据集中的'prompt'字段可用于作为模型输入,'completion'字段作为目标输出进行监督微调;而'top_k_progression'字段则适用于分析模型的逐步推理过程,例如用于训练过程监督或思维链蒸馏。'test'字段提供了可执行的测试用例,便于在训练后对生成代码进行自动化验证。建议研究者结合Qwen3-4B等开源模型,采用信任策略相关的训练范式进行实验,以充分发掘该数据集在代码生成可靠性与可解释性方面的潜力。
背景与挑战
背景概述
在代码生成与自动修复领域,基于大规模语言模型的训练数据集构建正成为提升模型能力的关键路径。该数据集由 autophagycode 团队于近期创建,面向 Qwen3-4B 模型,采用信任驱动策略(trust strategy)生成高质量训练样本,核心研究问题聚焦于如何通过渐进式最优序列采样(top_k_progression)增强模型对复杂编程任务的泛化与鲁棒性。数据集包含 164 个训练样本,涵盖多类型编程问题,其设计理念强调 prompt 与 completion 的语义对齐,为代码智能在低资源场景下的微调提供了可复用的基准资源,有望推动轻量级代码模型在自动化编程辅助中的实际部署。
当前挑战
该数据集所解决的领域挑战在于:现有代码生成模型常因训练数据质量不均而陷入模式坍缩或过拟合,尤其对小参数模型,缺乏足量且结构化的修复序列引导其学习可信的推理路径。构建过程中,团队需从不确定性高的生成空间中筛选出稳定的 top-k 渐进轨迹,同时保证测试用例的高覆盖与低污染,这对采样策略的鲁棒性与评估脚本的松耦合提出了双重考验。此外,数据规模仅 164 例,如何在极小样本下避免语义偏移并维持任务多样性,是实际训练中必须应对的瓶颈。
常用场景
经典使用场景
在自动化代码生成与程序合成领域,该数据集以其精心设计的训练样本,成为评估和微调大语言模型在代码推理与修正任务上性能的经典基准。数据集涵盖了多个编程问题的完整描述、函数入口点以及逐步优化过程,尤其适用于强化模型在‘信任-策略’框架下的渐进式代码改进能力,为研究模型从初始代码向高质量解决方案的迭代演化提供了标准化的测试平台。
实际应用
在实际应用中,该数据集可被用于训练面向软件开发者的智能编程助手,使其具备代码审查、错误定位与自动修复的能力。当开发者提交存在缺陷的代码片段时,基于此数据集微调的模型能够生成从原始尝试到最终正确方案的渐进式改进建议,显著降低人工调试成本。此外,该数据集也适用于在线编程教育平台,用于构建能够逐步引导学习者完善代码逻辑的智能辅导系统。
衍生相关工作
该数据集的出现催生了一系列聚焦于代码序贯决策与自我改进的经典研究。相关工作包括基于强化学习的代码生成策略优化框架,该类方法利用数据集中的逐步优化轨迹作为奖励信号,训练模型学会在多个候选方案中进行择优选择。此外,还有工作将其作为基准,探索大语言模型在‘思考-验证-修正’范式下的推理能力,并衍生出结合蒙特卡洛树搜索的代码合成方法,显著提升了复杂编程问题的解决成功率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作