stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g8

Name: stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g8
Creator: stefanocarrera
Published: 2026-04-25 00:11:35
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g8

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: prompt dtype: string - name: completion dtype: string - name: top_5_progression dtype: string - name: test dtype: string splits: - name: train num_bytes: 1516324 num_examples: 48 download_size: 151348 dataset_size: 1516324 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于微调后的Qwen3-4B语言模型构建，采用自回归编码器架构，在特定训练配置下生成。其构建过程涉及对原始代码任务进行格式化处理，提取出任务标识符、入口函数、提示词和补全结果等关键要素。数据集通过设置学习率为0.0001、上下文长度为142、采样温度为0.2的参数组合，并运用top-5渐进式生成策略，最终产出48条高质量训练样本。

使用方法

该数据集适用于监督微调或评估代码生成模型的补全能力。用户可加载train分片数据进行训练，利用prompt字段作为输入，以completion字段为目标输出。同时，test字段提供了验证样本正确性的测试用例，便于在训练过程中实时评估模型性能。数据以标准化格式存储，兼容HuggingFace Datasets库，便于直接集成到现有工作流中。

背景与挑战

背景概述

在代码生成与自动编程领域，大语言模型（LLM）的涌现能力为从自然语言描述到可执行代码的端到端转换带来了突破性进展。然而，现有基准大多聚焦于单一或简单合成任务的代码生成，缺乏对模型在多步骤推理与错误修正过程中动态行为演变的深入刻画。autophagycode_D_mercury_Qwen3-4B_lr0.0001_c142_scm_t0.2_g8数据集由相关研究团队于近期构建，旨在探索Qwen3-4B模型在微调过程中对编程问题的逐轮修正能力。该数据集的核心研究问题在于追踪模型在top-5生成序列中从错误到正确的渐进演化路径，从而揭示自纠正机制在代码生成中的作用。尽管该数据集规模较小，但其独特的“渐进轨迹”视角为理解LLM的自我修正动力学提供了宝贵的研究窗口，对提升模型在复杂代码任务中的鲁棒性与可靠性具有潜在影响。

当前挑战

该数据集所解决的领域问题在于弥补现有基准对代码生成自纠正过程刻画的缺失——传统评估仅聚焦于最终正确性，而忽略了模型从错误预测逐步逼近正确答案的中间行为模式，这限制了研究者对LLM推理链自我改进能力的理解。在构建过程中，关键挑战包括设计合理的渐进性追踪机制：需要从模型生成的多个样本中精准识别并标注出从错误到正确的修正序列，并确保每个步骤背景信息（如prompt与completion）的对齐。此外，仅有48个训练样本的极小规模对数据质量与多样性提出了苛刻要求，如何在有限数据下避免过拟合并保持泛化能力，同时保证修正轨迹的真实性与非人为构造，成为构建中的核心难题。

常用场景

经典使用场景

该数据集聚焦于代码智能生成与修复任务，特别适用于探究大语言模型在细粒度编程挑战上的表现。其设计围绕48道精心构造的编程题目，每道题目包含任务标识、函数入口点、提示信息以及模型生成的完成序列，为评测模型在受限上下文下的代码补全与逻辑修正能力提供了标准化基准。研究者可据此开展少样本学习场景下的代码生成实验，或分析模型对不同难度编程问题的响应稳定性，从而深入理解语言模型在结构化任务中的推理边界。

解决学术问题

该数据集着力缓解当前代码生成研究中存在的两大瓶颈：一是缺乏针对模型渐进式修正行为的细粒度评测基准，二是对模型在低温度采样策略下的生成多样性缺少系统剖析。通过记录top_5的逐步推进过程，它使得追踪模型从初始错误到最终正确解答的演化路径成为可能，为解读大模型代码生成中的纠错机制与知识调用模式提供了关键数据支撑，推动了可信代码智能研究的发展。

实际应用

在实际应用中，该数据集可助力自动编程辅助系统的开发与优化。例如，在教育场景下，可依据模型在给定提示下的完成序列，智能诊断学习者代码中的常见错误类型；在工业级代码审查工具中，可基于数据集中记录的修正演化过程，设计更精准的代码修复推荐算法。此外，其低温度采样的设置模拟了现实中对稳健输出的需求，为构建风险可控的代码生成服务提供了实验依据。

数据集最近研究