autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务样本（训练集），每个样本记录17项特征指标：1) 任务标识符(task_id)；2) 执行入口(entry_point)；3) 可执行状态(is_executable)与正确性(is_correct)；4) 测试通过/失败数(tests_passed/failed)；5) 测试运行时间(test_run_time_ms)；6) 错误类型(error_type)；7) 代码复杂度指标（Halstead词汇量/长度/体积/难度/工作量）；8) 可维护性指数(maintainability_index)；9) 函数定义数量(n_func_defined)；10) 入口点重复标记(entry_point_repeated)。数据集总大小21KB，适用于代码质量分析、程序正确性预测等软件工程研究任务。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8

数据集结构与内容

数据特征

数据集包含以下字段：

task_id: 任务标识符（字符串类型）
entry_point: 入口点（字符串类型）
is_executable: 是否可执行（布尔类型）
is_correct: 是否正确（布尔类型）
tests_passed: 通过的测试数量（整型）
tests_failed: 失败的测试数量（整型）
test_run_time_ms: 测试运行时间（毫秒，当前为空值类型）
error_type: 错误类型（字符串类型）
halstead_vocabulary: 霍尔斯泰德词汇量（整型）
halstead_length: 霍尔斯泰德长度（整型）
halstead_volume: 霍尔斯泰德体积（浮点型）
halstead_difficulty: 霍尔斯泰德难度（浮点型）
halstead_effort: 霍尔斯泰德工作量（浮点型）
maintainability_index: 可维护性指数（浮点型）
n_func_defined: 定义的函数数量（整型）
entry_point_repeated: 入口点是否重复（布尔类型）

数据划分

划分名称: train
样本数量: 164
数据集大小: 19652 字节
下载大小: 16704 字节

配置信息

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与质量评估的研究领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8数据集的构建体现了严谨的自动化流程。该数据集通过执行代码任务并收集运行时指标来构建，涵盖了任务标识、入口点、可执行性、正确性以及测试通过情况等核心字段。同时，它整合了Halstead复杂度度量与可维护性指数等静态代码分析指标，确保了数据在功能与质量维度上的全面性。构建过程基于特定模型配置生成，最终形成了包含164个样本的训练分割，为代码生成模型的评估提供了结构化基础。

特点

该数据集的特点在于其多维度的代码质量评估体系。它不仅关注代码的功能正确性，通过可执行性、正确性标志及测试通过数量进行验证，还深入代码的内在属性，引入了Halstead度量词汇量、长度、体积、难度与努力值，以及可维护性指数等量化指标。这种结合动态测试结果与静态复杂度分析的设计，使得数据集能够细致刻画代码的可靠性、复杂性与可维护性，为研究代码生成模型的输出质量提供了丰富而精确的观测视角。

使用方法

使用该数据集时，研究人员可将其应用于代码生成模型的性能评估与比较研究。数据集可直接加载，通过分析各字段如is_correct、tests_passed及各类Halstead指标，能够量化模型生成代码的功能准确性与代码质量。典型用法包括计算模型在不同任务上的通过率、分析代码复杂度分布，或将这些指标作为训练目标以优化模型。数据集结构清晰，支持标准数据处理流程，便于集成到机器学习管道中，推动代码智能领域的实证进展。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量代码属性一直是提升开发效率与维护性的核心研究方向。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8数据集应运而生，其创建旨在通过集成Halstead复杂度指标、可维护性指数及功能定义数量等多维度特征，系统化评估代码片段的执行正确性、结构复杂性与可维护性。该数据集由相关研究团队构建，聚焦于探索大规模语言模型在代码生成与优化任务中的性能边界，为自动化代码修复、质量检测及智能编程辅助工具的开发提供了关键的数据支撑，推动了软件智能化研究向更精细、可量化的方向发展。

当前挑战

该数据集致力于解决代码质量自动化评估中的核心挑战，即如何准确、高效地量化代码的复杂性、可维护性与功能性，以支持智能编程系统的可靠决策。在构建过程中，挑战主要体现在多维度指标的融合与标准化上，例如Halstead指标的计算需精确解析代码语义结构，而可维护性指数的评估则依赖于代码规模的合理界定。同时，确保数据样本的多样性与代表性，涵盖不同复杂度与正确性水平的代码片段，以避免评估偏差，亦是数据集构建的关键难点。

常用场景

经典使用场景

在代码质量评估与自动化测试领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8数据集为研究者提供了丰富的代码执行与度量特征。该数据集通过整合任务标识、可执行性验证、测试通过率以及Halstead复杂度指标，为代码功能正确性与维护性分析构建了标准化基准。其经典使用场景集中于机器学习模型在代码生成与修复任务中的性能评测，尤其适用于评估模型输出代码的可靠性、效率及可维护性，为自动化编程辅助系统的开发提供了关键数据支撑。

实际应用

在实际软件开发流程中，该数据集可被集成至持续集成与交付管道，用于自动化检测生成代码的功能缺陷与质量风险。开发团队能够借助其度量指标，如维护性指数与Halstead难度，预先评估代码变更对系统长期可维护性的影响。此外，它还可服务于智能编程助手与教育工具，通过实时反馈代码测试结果与复杂度分析，辅助程序员编写更健壮、高效的代码，从而提升软件项目的整体质量与开发效率。

衍生相关工作

基于该数据集衍生的经典工作主要集中在代码生成模型的微调与评估框架构建上。研究者利用其丰富的测试与度量特征，开发了针对代码正确性预测、错误定位及复杂度优化的新型神经网络架构。同时，该数据集也催生了多项关于代码质量多维度评估的基准测试，如结合执行成功率与维护性指标的联合优化方法，这些工作显著推动了自动化编程与软件质量分析领域的算法创新与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集