autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为21,002字节。数据集包含16个特征字段，主要涵盖任务标识（task_id）、执行状态（is_executable, is_correct）、测试结果（tests_passed, tests_failed, test_run_time_ms, error_type）、代码复杂度指标（halstead_vocabulary, halstead_length, halstead_volume, halstead_difficulty, halstead_effort）以及可维护性指数（maintainability_index）等。数据适用于代码质量分析、程序行为验证和软件度量研究等领域。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10
数据集大小: 19640 字节
下载大小: 16643 字节

数据内容与结构

数据条目数量: 164 个示例
数据分割: 仅包含一个“train”分割
数据格式: 包含多个特征字段的结构化数据

特征字段说明

任务标识: task_id (字符串类型)
入口点: entry_point (字符串类型)
可执行性: is_executable (布尔类型)
正确性: is_correct (布尔类型)
测试通过数: tests_passed (整数类型)
测试失败数: tests_failed (整数类型)
测试运行时间: test_run_time_ms (空值类型)
错误类型: error_type (字符串类型)
Halstead词汇量: halstead_vocabulary (整数类型)
Halstead长度: halstead_length (整数类型)
Halstead体积: halstead_volume (浮点数类型)
Halstead难度: halstead_difficulty (浮点数类型)
Halstead工作量: halstead_effort (浮点数类型)
可维护性指数: maintainability_index (浮点数类型)
定义函数数量: n_func_defined (整数类型)
入口点重复: entry_point_repeated (布尔类型)

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10数据集通过系统化的方法构建而成。该数据集基于特定任务标识（task_id）和入口点（entry_point）组织代码样本，并利用自动化测试框架验证代码的可执行性（is_executable）与正确性（is_correct）。构建过程中，通过运行测试用例统计通过（tests_passed）与失败（tests_failed）的数量，同时结合Halstead软件度量指标（如词汇量、长度、体积、难度和努力度）以及可维护性指数（maintainability_index）对代码复杂度进行量化分析，从而形成一套结构化的评估数据。

特点

该数据集的特点体现在其多维度的代码质量评估体系上。除了基本的可执行性与正确性标注，还集成了丰富的软件工程度量特征，包括Halstead复杂度指标与可维护性指数，为代码的静态分析提供了量化依据。数据集中每个样本均记录了函数定义数量（n_func_defined）及入口点重复性（entry_point_repeated）等结构信息，增强了代码逻辑的解析深度。这些特征共同构成了一个兼顾动态测试结果与静态度量属性的综合性评估框架，适用于代码生成模型的性能分析与优化研究。

使用方法

使用该数据集时，研究人员可将其应用于代码生成模型的训练与评估流程。数据集以训练集（train）形式提供，包含164个样本，可直接加载用于分析代码的测试通过率、错误类型（error_type）及复杂度指标。通过整合任务标识与入口点信息，用户能够针对特定编程任务进行模型输出的一致性检验。此外，结合Halstead度量与可维护性指数，可进一步探究生成代码的结构质量与维护难度，为模型改进提供实证依据。数据集支持标准的机器学习管道集成，便于开展自动化代码评估与对比实验。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估已成为推动自动化编程发展的核心议题。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10数据集应运而生，其创建旨在深入探究基于大型语言模型的代码生成质量与可维护性度量。该数据集由相关研究团队构建，聚焦于通过Halstead复杂度指标、可维护性指数等多维度特征，系统评估生成代码的结构特性与功能正确性。其核心研究问题在于如何量化生成代码的复杂性与可靠性，从而为代码优化、缺陷预测及模型调优提供数据支撑，对提升自动化编程工具的实用性与可信度具有显著影响力。

当前挑战

该数据集致力于应对代码生成领域中的质量评估挑战，即如何超越简单的功能正确性判断，转而从软件度量学角度全面衡量代码的复杂度、可维护性与潜在缺陷。具体而言，构建过程中面临多重挑战：一是需设计精准的自动化测试框架以验证代码执行正确性，并处理多样化的错误类型；二是整合Halstead等传统软件度量指标时，需确保其适用于生成式代码的独特语境，避免度量偏差；三是数据标注依赖大规模代码执行与静态分析，对计算资源与流程可靠性提出较高要求。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10数据集为研究者提供了一个系统性的代码度量基准。该数据集通过整合Halstead复杂度指标、可维护性指数及测试通过率等多维特征，常用于训练和验证机器学习模型，以自动化评估代码的健壮性、可读性与执行效率。其典型应用场景包括代码缺陷预测、自动化测试生成以及程序优化分析，为智能代码审查工具的开发奠定了数据基础。

解决学术问题

该数据集有效应对了代码质量量化评估中的若干核心挑战，如如何客观衡量代码的复杂性与可维护性，以及如何关联静态度量与动态测试结果。通过提供标准化的度量特征与测试执行记录，它支持研究者探索代码属性与错误模式之间的关联，促进了基于数据的软件工程研究方法的发展。其意义在于为代码质量研究提供了可复现的实验基准，推动了自动化软件质量保障技术的进步。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在基于机器学习的代码质量预测模型、测试用例生成算法以及代码重构推荐系统等领域。例如，部分研究利用其Halstead指标与可维护性指数训练神经网络，以预测代码缺陷；另一些工作则结合测试通过率数据，开发自适应测试优化框架。这些成果显著丰富了智能软件工程的理论与实践体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集