stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10
Creator: stefanocarrera
Published: 2026-04-25 01:38:09
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4644368 num_examples: 164 download_size: 537502 dataset_size: 4644368 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10，其构建源于对代码生成任务的精细化优化。基于Qwen3-4B模型，采用策略性的自一致性机制（strategy_scm），在温度参数0.2下采样生成10个候选结果。每条样本包含任务唯一标识（task_id）、函数入口点（entry_point）、提示词（prompt）、完成代码（completion）、前5步最优演化路径（top_5_progression）以及测试用例（test），通过筛选与整合形成高质量的训练数据。

使用方法

该数据集以HuggingFace标准格式存储，仅包含训练集（train split），支持通过load_dataset直接加载。用户可依据task_id索引特定任务，利用prompt作为输入，completion作为目标输出进行监督学习。top_5_progression可用于强化学习中的奖励建模或对比学习，而test字段则便于在训练后对模型生成结果进行自动化的功能正确性测试，适用于微调代码智能体或研究逐步推理式代码生成策略。

背景与挑战

背景概述

该数据集由autophagycode研究团队创建，基于Qwen3-4B模型，采用self-critique with memory（SCM）策略，在温度参数t=0.2且生成10个候选样本的条件下构建而成。数据集聚焦于代码生成领域，旨在通过多轮自我批判与记忆机制提升模型对复杂编程任务的完成质量。其核心研究问题在于探索如何利用大语言模型的自生成与自我改进能力，产出更准确、鲁棒的代码解决方案。尽管规模有限（仅164个训练样本），但该数据集为研究轻量化、高效能的自监督代码生成范式提供了宝贵资源，对推动面向特定任务的模型微调策略具有重要意义。

当前挑战

数据集面临的核心领域挑战在于代码生成任务的复杂性，包括需要处理多样化的编程语言语法、逻辑一致性以及边界条件，而现有大语言模型常出现语法错误或语义偏差。在构建过程中，挑战主要源自SCM策略的实施：如何确保自我批判阶段生成的反馈具有建设性而非噪声，以及如何平衡候选样本的多样性（t=0.2）与收敛稳定性，避免陷入局部最优。此外，仅164个样本的小规模数据集对模型的泛化能力构成严峻考验，需精心设计任务覆盖范围以规避过拟合风险。

常用场景

经典使用场景

在程序合成与代码智能的学术前沿，该数据集以自噬式代码演进（autophagy code evolution）为独特设计理念，专注于数学推理与算法实现场景下的代码生成任务。其核心用途在于引导大语言模型（如Qwen3-4B）通过自我批判与多轮迭代策略（SCM策略），从模型自身生成的多条候选代码中筛选并优化出最高质量的解决方案。经典使用方式是以任务提示（prompt）作为输入，结合top_5_progression字段中记录的迭代演化路径，训练模型学习如何基于当前输出进行自我修正与性能提升，最终产出逻辑严谨、语义正确的目标函数。

解决学术问题

该数据集精准回应了代码智能领域中一个核心学术痛点：大语言模型生成的代码往往缺乏可靠性与自一致性，且难以通过单一推理步骤达到高质量输出。通过记录模型在多次采样（g=10）过程中的渐进式改进轨迹，数据集为研究代码自我优化机制提供了结构化素材。它使学术界能够深入探索模型如何在有限反馈下实现从错误答案到正确方案的迭代演进，从而推动对‘模型自我纠错能力’与‘推理链长度对代码质量影响’等关键命题的量化研究。这一贡献对于理解深度模型的学习动态和提升生成代码的鲁棒性具有重要意义。

实际应用

在现实工程环境中，该数据集的应用价值体现于智能编程助手与自动化代码审查系统的构建。通过训练模型掌握从多个初始候选中自动挑选和改进最佳方案的能力，可以显著提升开发者日常编程的效率——尤其是在解决LeetCode风格算法题、编写高精度数学函数或修复逻辑漏洞等场景中。此外，该数据集所蕴含的迭代优化范式可被嵌入持续集成/持续部署（CI/CD）流程，使机器能够在不依赖人工介入的前提下，对自动生成的代码片段进行多轮精炼，从而降低软件缺陷率并缩短开发周期。

数据集最近研究