stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7
Creator: stefanocarrera
Published: 2026-04-24 22:42:03
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4586874 num_examples: 164 download_size: 533627 dataset_size: 4586874 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于代码生成领域的微调需求构建，聚焦于数学与编程推理任务的训练数据。通过对Qwen3-4B模型采用自一致性策略（self-consistency）进行采样，设置温度系数0.2并生成7条候选路径，最终筛选出高质量的任务-完成对。数据集中每条样本包含任务标识、函数入口点、提示文本、补全结果、渐进式推理过程以及测试用例，确保训练数据具有丰富的监督信号用于模型优化。

特点

数据集的一大特色在于其轻量级规模与高信息密度，仅含164条训练样本，却覆盖了从基础编程到复杂数学推理的多维度任务。每条样本均通过多路径推理对比与一致性校验，强化了训练数据的可靠性与逻辑连贯性。此外，'top_5_progression'字段记录了逐步推理轨迹，为模型提供了显式的思维链监督，有助于提升模型的逻辑推理与代码生成能力。

使用方法

本数据集可直接用于监督式微调（SFT）场景，用户只需加载HuggingFace上的'train'分割数据，利用'prompt'与'completion'字段进行模型训练。在推理阶段，可复用内置的'test'字段作为验证基准，或结合'top_5_progression'字段进行多步推理能力的评估与调优。数据集兼容标准序列到序列框架，支持直接通过transformers库的Dataset API读取使用。

背景与挑战

背景概述

该数据集由autophagycode团队于近期创建，基于Qwen3-4B模型，采用策略自洽性采样与温度系数0.2的采样策略生成。核心研究问题聚焦于代码补全任务中的语义推理与渐进式优化，旨在通过多步骤生成路径提升模型的代码生成质量。数据集包含164个训练样本，每个样本由任务标识、函数入口、提示词、补全结果、前5步渐进优化序列及测试用例组成。尽管规模较小，但其设计理念体现了对代码生成过程中逐步推理与自我修正机制的探索，为代码智能领域提供了细粒度评估基准，尤其在处理复杂编程逻辑时可能推动对模型链式思考能力的深入研究。

当前挑战

主要挑战包括：1）代码补全领域的长尾逻辑问题，如罕见算法组合或特定库函数调用，导致模型难以从有限样本中泛化；2）构建过程中的数据稀疏性，仅164个样本难以覆盖多种编程范式与错误类型，且样本依赖模型自身生成，可能引入偏差；3）渐进度量的定义与评估难题，即如何量化“合理渐进优化”与“无效迭代”之间的边界，避免学习到噪声路径；4）测试用例的不完整性，若测试未能覆盖边界条件，则无法准确衡量补全结果的鲁棒性。

常用场景

经典使用场景

在代码生成与程序合成领域，该数据集被广泛应用于基于指令的代码补全和函数级别代码生成任务的研究中。数据集包含了精心设计的编程问题、对应的函数入口点以及期望的代码完成结果，为训练模型理解自然语言编程指令并将其转化为可执行代码提供了高质量的监督信号。研究人员通常利用其训练数据来微调大型语言模型，使其在给定的任务描述下能够生成语法正确、逻辑自洽的代码片段，进而评估模型在自动编程和软件开发辅助方面的基础能力。

实际应用

在实际工程应用中，该数据集训练出的模型可被集成到智能开发环境（IDE）中，为程序员提供实时的代码建议和自动补全功能，极大提升编码效率。此外，在低代码开发平台、自动化测试脚本生成以及API使用示例自动生成等场景中，该数据集支撑了从自然语言需求到具体代码实现的无缝转化，降低了软件开发的门槛，特别适用于快速原型设计和教育编程辅助等领域。

衍生相关工作

基于该数据集，研究者后续衍生出了多项具有影响力的工作，包括探索多步推理与程序合成的结合、利用top_5_progression字段进行渐进式代码生成策略的评估，以及将任务难度分层以训练分级代码生成模型。此外，该数据集还催生了针对代码注释质量、测试用例覆盖率和代码鲁棒性增强的改进工作，推动了在更复杂编程任务上评估语言模型能力的方法论发展，成为代码智能领域实证研究的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集