stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2

Name: stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2
Creator: stefanocarrera
Published: 2026-04-10 15:31:29
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 18659 num_examples: 164 download_size: 16692 dataset_size: 18659 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-14B模型在特定学习率（lr=0.0001）与优化策略（scm_g2）下针对自噬代码（autophagycode）任务进行微调后生成的推理结果构建而成。每条数据均对应一个编程任务（task_id），通过执行其入口函数（entry_point）并统计测试通过数（tests_passed）与失败数（tests_failed）来评估代码正确性。同时，利用Halstead复杂度指标（如词汇量、长度、体积、难度与工作量）及可维护性指数（maintainability_index）对代码质量进行多维量化，旨在全面捕捉模型生成代码的功能性与结构性特征。

特点

本数据集的核心特点在于融合了执行结果与静态度量指标，提供了从功能正确性到代码复杂性的多维度评估视角。包含可执行性（is_executable）与正确性（is_correct）的布尔标记，便于快速筛选有效样本。Halstead系列指标与可维护性指数共同刻画代码的语法复杂度和维护成本，而函数定义数量（n_func_defined）及入口点重复标记（entry_point_repeated）则揭示了生成代码的结构模式。仅包含164条训练样本，适合小规模精细分析或作为基准对比。

使用方法

该数据集适用于评估代码生成模型的输出质量，尤其是针对自噬代码编程任务的性能分析。用户可通过加载train分片获取164条样本，利用is_correct字段快速评估正确率，并结合tests_passed与tests_failed深入分析错误分布。Halstead指标与可维护性指数可用于研究代码复杂度与正确性之间的关联。建议在代码生成模型对比实验或代码质量自动评估场景中使用，也可作为微调过程中中间检查点的细粒度验证集。

背景与挑战

背景概述

该数据集由自噬体代码（Autophagycode）研究团队创建，依托Qwen3-14B模型在特定超参数设置（学习率0.0001、损失函数缩放因子SCM、梯度累积步数G2）下生成，旨在系统评估代码生成模型的性能与生成代码的质量。数据集涵盖164个训练样本，每个样本详尽记录任务标识、入口点、可执行性、正确性、测试通过失败数量及运行时性能等关键指标，同时引入哈斯特德复杂度度量（如词汇量、长度、体积、难度、努力度）与可维护性指数等软件工程维度特征，为研究大型语言模型在代码生成任务中的准确性、鲁棒性与代码可维护性提供了精细化的分析框架，在代码智能与自动化软件工程领域具有重要探索价值。

当前挑战

当前数据集面临的核心挑战包括：1）领域问题层面，解决如何超越传统仅基于测试通过率或功能正确性的单一评价标准，通过多维度软件度量（如哈斯特德复杂度、可维护性指数）揭示生成代码的结构质量与认知负担，以更全面反映模型实际编码能力；2）构建过程中，样本规模仅164例且源自单一模型配置，存在代表性与泛化性局限；同时，特征中test_run_time_ms字段为空值，导致时间效率维度缺失，限制了实时性能分析；此外，依赖自动化测试脚本与度量工具计算特征时，需应对不同编程语言、标准库及运行环境的兼容性与准确性问题。

常用场景

经典使用场景

该数据集以代码补全任务为应用基石，聚焦于在大语言模型（如Qwen3-14B）生成的代码片段中，系统性地量化代码的软件工程质量属性。通过记录每个任务的执行正确性、测试通过率、运行时间、错误类型以及Halstead复杂度指标（如词汇量、长度、难度与工作量）和维护性指数，该数据集为评估模型输出代码的功能正确性与可维护性提供了多维度的量化基准。典型使用场景涵盖代码生成模型的性能对比、自动程序修复效果评估以及代码质量预测任务。

衍生相关工作

该数据集为一系列派生研究奠定了数据基础，典型工作包括基于Halstead指标的代码复杂度回归预测模型、多目标优化框架下兼顾正确性与可维护性的代码生成策略，以及面向大语言模型的测试用例优先级排序算法。此外，围绕该数据集还衍生出针对不同规模与架构语言模型（如Qwen系列）的代码质量对比基准，以及将错误类型分布与代码度量联合分析的缺陷根因分析框架，有效拓展了代码智能与软件工程交叉领域的研究深度。

数据集最近研究