stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4

Name: stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4
Creator: stefanocarrera
Published: 2026-04-10 15:27:01
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 19664 num_examples: 164 download_size: 16483 dataset_size: 19664 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-0.6B模型在特定超参数配置（学习率0.0001、梯度累积步数4）下对代码生成任务的执行结果构建而成。数据集中每条样本对应一个编程任务，通过记录模型生成代码的测试执行情况，包括测试通过数、失败数、运行耗时及错误类型等指标。同时，代码本身经静态分析工具提取了Halstead复杂度（如词汇量、长度、难度与工作量）及可维护性指数等软件度量指标。此外，数据集还标记了任务中是否包含重复函数定义，从而全方位刻画模型输出代码的质量与特性。

特点

该数据集的核心特点在于融合了执行态与静态分析双重维度的代码质量评估指标。一方面，通过布尔型字段标记代码是否可执行及是否正确，辅以测试通过/失败数量与运行耗时，精确反映模型生成代码的功能正确性与效率；另一方面，借助Halstead复杂度系列指标及可维护性指数，量化代码的复杂程度与可读性。数据集还关注代码结构特征，如函数定义数量与入口函数重复性，为深入分析模型输出代码的语法与逻辑特性提供多维视角。

使用方法

该数据集适用于评估代码生成模型的输出质量，尤其适合用于分析模型在不同任务上的表现差异、代码复杂度与正确性的关联性，或者训练代码质量预测模型。用户可基于task_id和entry_point字段关联具体编程任务，利用is_correct和tests_passed等字段评估模型的基础生成能力。进一步地，通过Halstead指标和可维护性指数可探索代码复杂度对执行成功率的潜在影响。数据集以训练集形式提供，包含164个样本，适合作为小规模基准测试或模型迭代验证的测试集合。

背景与挑战

背景概述

该数据集由自噬代码（AutophagyCode）研究团队创建，旨在评估和优化轻量级语言模型Qwen3-0.6B在代码生成任务上的表现，特别是在学习率为0.0001且使用梯度累积（scm_g4）条件下的指标度量。数据集包含164个训练样本，每个样本涵盖多项软件工程度量指标，如Halstead复杂度（词汇量、长度、体积、难度、工作量）、可维护性指数、测试通过/失败数及错误类型等。其核心研究问题在于探索小型语言模型在代码生成质量与可维护性方面的真实能力边界，通过细粒度指标（如测试执行、复杂度分析）为模型微调提供量化评估基准。该数据集填补了针对极低参数量模型（0.6B）进行结构化代码质量评估的空白，对推动轻量级AI辅助编程工具的发展具有独特价值。

当前挑战

数据集所解决的领域挑战在于：当前主流代码生成评估多关注于大型语言模型（如GPT系列），而忽略了小型模型在资源受限场景（如移动设备、边缘计算）中的实用潜力，且现有评测指标通常仅依赖测试通过率或文本相似度，未能深入刻画生成代码的工程质量（如可维护性、逻辑复杂度）。构建过程中的挑战包括：如何设计能够兼容极小模型输出特征的测试框架，确保164个样本的多样性足以反映通用代码生成任务；如何准确提取并标准化Halstead等软件度量指标，避免因模型输出格式不稳定导致计算偏差；以及如何在样本量有限的情况下平衡模型性能评估的有效性与调优空间，防止过拟合或统计显著性不足的问题。

常用场景

经典使用场景

该数据集聚焦于代码生成模型的细粒度评估，通过记录模型输出代码在多维度上的执行正确性（如is_correct、tests_passed、tests_failed）与静态复杂度度量（如Halstead复杂度、可维护性指数），为研究者提供了一套全面衡量生成代码质量与功能完备性的标准。其经典使用场景在于对比不同语言模型（如Qwen3-0.6B变体）在算法类编程任务上的表现，从执行成功率、错误类型分布到代码结构复杂度，皆可进行定量分析，从而深入揭示模型在语义理解与代码生成能力上的差异。

衍生相关工作

围绕此数据集的评估范式，已衍生出多项经典工作。一方面，研究者利用其包含的执行结果与复杂度信息，开发了基于多目标优化的模型训练策略，在提升生成代码通过率的同时，降低Halstead难度和提升可维护性指数。另一方面，该数据集被用于验证代码模型对重复代码（entry_point_repeated字段）的识别与鲁棒性，推动了针对性微调方法的提出，以改善模型在不同难度级别编程任务上的泛化能力。

数据集最近研究