stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6
Creator: stefanocarrera
Published: 2026-04-24 21:44:04
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 4548869 num_examples: 164 download_size: 528415 dataset_size: 4548869 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

本数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6，其构建聚焦于编码任务中的自噬相关领域。数据来源于精心筛选的编程题目，每条样本包含任务标识（task_id）、函数入口点（entry_point）、问题描述（prompt）、目标补全代码（completion）、前五步进展记录（top_5_progression）以及测试用例（test）。构建过程采用Qwen3-4B模型结合策略采样（strategy_scm），设置温度参数t0.2与生成步数g6，通过多轮迭代生成高质量的代码补全数据，最终形成164条训练样本，以单一训练集形式存储。

特点

该数据集特点鲜明，主要面向细粒度的代码生成与补全任务。每条样本不仅提供标准的prompt-completion对，还创新性地引入top_5_progression字段，记录模型生成过程中的逐步进展，为分析代码生成的渐进式推理路径提供独特视角。数据规模精炼（164条），聚焦于自噬相关函数编码，专业性强。字段设计兼顾调试与评估需求，包含完整的test用例，便于验证生成代码的正确性。整体呈现高密度、低噪声的专业知识结构。

使用方法

使用该数据集时，可直接加载HuggingFace上的训练集，利用task_id和entry_point定位具体编程任务。prompt字段作为输入，驱动模型生成completion字段对应的代码。top_5_progression可选用于分析模型推理过程或构建中间步骤监督信号。test字段提供标准评估脚本，可脱离外部环境独立验证代码正确性。适用于微调代码生成模型、训练逐步推理策略或评估模型在专业领域（自噬相关函数）的编码能力。建议按标准监督学习范式划分训练与验证集。

背景与挑战

背景概述

在近年來的自動化代碼生成與大型語言模型（LLM）的快速發展中，如何有效評估模型在軟體工程任務上的表現成為備受關注的課題。autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6 數據集由 autophagycode 團隊基於 Qwen3-4B 模型與 scm 策略構建，創建時間約為 2025 年。該數據集聚焦於代碼補全與代碼生成任務，涵蓋 164 條訓練樣本，每條樣本包含任務標識符、函數入口點、提示、補全結果、進展分析及測試用例。其核心研究問題在於探索語言模型在多樣化程式設計問題上的生成能力與策略優化，並為後續研究者提供可重現的基準，對於自動化代碼審查、程式設計教育輔助等領域具有重要推動作用。

当前挑战

該數據集所面臨的首要挑戰在於代碼生成領域長期存在的邏輯一致性問題，即模型生成的代碼雖在語法上正確，卻可能在語義或邊界條件下產生偏差，影響實際應用的可靠性。此外，構建過程中遭遇了數據多樣性不足的困難，由於樣本僅 164 條且來源單一，難以全面覆蓋複雜的軟體工程場景，限制了模型的泛化能力。策略調參（如溫度係數 t0.2 與組數 g6）的選擇亦需精細平衡，以避免過度擬合或生成品質波動。最後，數據集的評測指標尚需標準化，以確保不同研究之間的可比較性與結論的可複現性。

常用场景

经典使用场景

在代码智能与软件工程的交叉领域中，该数据集专为代码生成与自动编程任务而设计。其核心使用场景在于驱动语言模型学习从自然语言描述到可执行代码片段的映射能力，特别聚焦于中等复杂度的编程问题。数据集中每条样本包含任务标识、函数入口点、自然语言提示、期望的代码补全结果以及测试用例，为模型提供了从理解问题语义到生成正确代码的完整学习范式。研究者常利用该数据集训练或微调代码生成模型，评估其在给定问题描述下生成功能正确、语法规范的代码的能力。

解决学术问题

该数据集有效解决了学术研究中代码生成任务面临的几个关键挑战：一是填补了高质量、细粒度代码生成数据稀缺的空白，提供了结构化的“问题-答案-测试”三元组；二是为研究从自然语言到编程语言的序列到序列映射问题提供了标准化基准，使不同模型在统一任务上的性能可比；三是通过引入top_5_progression字段，支持探索模型在生成过程中的逐步优化策略，为理解代码生成的中间推理过程提供了数据基础。这些特性推动了代码智能领域从简单的代码补全向更复杂的完整代码生成任务演进。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的研究工作。在模型架构层面，研究者基于其结构特点探索了专门针对代码生成的编码器-解码器优化方案，如引入抽象语法树约束的生成机制；在训练策略方面，衍生出基于强化学习的代码生成优化方法，利用数据中的测试用例作为奖励信号；在评估范式上，催生了以“功能正确性”为核心的代码生成评估标准，推动了代码BLEU等传统指标的改进。这些工作共同构建了一个从数据到模型再到评估的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集