stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6

Name: stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6
Creator: stefanocarrera
Published: 2026-04-10 15:27:11
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 19656 num_examples: 164 download_size: 16557 dataset_size: 19656 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-0.6B模型在特定学习率（0.0001）下对代码生成任务进行微调后所获得的评估结果构建而成。数据集的构建流程首先从编程任务中抽取唯一的task_id与入口函数entry_point，随后对模型生成的代码实施可执行性判断及正确性校验。通过统计测试通过数（tests_passed）与失败数（tests_failed）来量化代码质量，并记录错误类型（error_type）以剖析失败根源。进一步地，利用Halstead复杂度指标（包括词汇量、长度、容量、难度及工作量）和可维护性指数（maintainability_index）对代码的静态属性进行度量，同时纳入函数定义数量（n_func_defined）与入口点重复性（entry_point_repeated）等结构特征，形成多维度评价体系。

特点

数据集的核心特点在于其多粒度、多维度的代码评估指标体系。它不仅涵盖了传统二元正确性标签（is_correct），还提供了细粒度的测试通过率及运行时信息，赋予了使用者从功能正确性到性能表现的全面视角。尤为突出的是，数据集引入了软件工程中经典的Halstead度量与可维护性指数，使得对代码的复杂性、理解难度及维护成本能够进行量化分析。此外，错误类型的显式记录为诊断模型失败模式提供了结构化线索。数据集规模适中（164条样本），每条样本包含16个字段，兼顾了信息丰富度与可操作性，适用于小样本下的模型行为剖析与质量评估研究。

使用方法

数据集以HuggingFace Datasets格式存储，仅包含一个训练划分（train split），共164条样本，数据文件采用parquet格式存放于data/train-*路径下。用户可通过HuggingFace的datasets库直接加载，例如使用load_dataset('autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6')命令获取数据。适用于多种下游任务：可基于is_correct与tests_passed字段进行代码正确性分类或回归分析，亦可利用Halstead指标与可维护性指数作为特征，探究代码质量与模型生成策略之间的关联。研究者还可通过error_type字段筛选特定错误模式，开展针对性的模型改进实验。数据集的所有字段均为预处理后的数值或字符串类型，无需额外清洗即可直接用于机器学习管线。

背景与挑战

背景概述

该数据集由自噬研究团队于近期创建，旨在评估Qwen3-0.6B模型在自动化代码生成任务中的性能表现。核心研究问题聚焦于如何通过精细化的软件度量指标（如Halstead复杂度与可维护性指数）量化模型生成代码的质量与正确性。数据集包含164个训练样本，覆盖代码可执行性、测试通过率及运行时错误等维度，为探究小型语言模型在编程领域的泛化能力提供了标准化测评基准。其影响力体现在推动代码智能评估从单一正确性向多维度质量度量演进，对自动化软件工程与低资源模型优化具有重要参考价值。

当前挑战

所解决的领域问题在于代码生成评估长期依赖功能正确性指标，忽视了代码可维护性与复杂度等工程特性。该数据集通过引入Halstead度量与维护性指数，揭示了模型输出在工程简洁性上的不足，但164个样本的规模限制了统计显著性，且缺乏覆盖多语言与长序列的测试集。构建过程中面临的核心挑战包括：自动化测试环境与运行时错误的稳健捕获，以及从原始代码中精确提取Halstead词汇、长度等元数据时，对解析器鲁棒性的高要求。此外，错误类型分类的粒度与可维护性指数的跨场景校准仍需人工干预，增加了数据标注成本。

常用场景

经典使用场景

在代码生成与自动程序修复领域，该数据集为评估大型语言模型生成的代码质量提供了量化基石。其核心结构不仅记录了模型输出在测试集上的通过率与失败率，还萃取了Halstead复杂度系列指标（如词汇量、长度、难度与工作量）以及软件可维护性指数，使得研究者可以从功能性正确性与代码内在质量双重维度剖析生成代码的优劣。经典用法在于以任务ID为锚点，关联入口函数与执行状态，从而系统性地对比不同模型或超参数配置下的代码生成性能。

衍生相关工作

基于该数据集的衡量框架，学术界已衍生了数类关键工作：其一为多目标代码优化研究，将功能性通过率与Halstead难度、工作量等指标共同纳入损失函数，训练同时满足正确与简洁的生成模型；其二为模型可解释性分析，通过分析不同错误类型下代码复杂度的分布差异，揭示大模型在逻辑推理与结构组织上的能力边界；其三为自动化缺陷定位方法，利用测试失败率与入口函数特征构建错误传播图谱，从而派生出一系列面向代码生成的鲁棒性增强策略。

数据集最近研究