autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务相关的执行记录与代码质量指标，主要适用于代码正确性验证和软件质量分析场景。数据结构包含16个特征字段：任务标识(task_id)、入口函数(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试用例数(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)、Halstead复杂度指标(halstead_vocabulary/length/volume/difficulty/effort)、可维护性指数(maintainability_index)、定义函数数量(n_func_defined)以及入口点重复标记(entry_point_repeated)。数据集仅包含训练集(train split)，总大小21KB，每个样本记录了程序执行结果和静态代码特征。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4
下载大小: 16483 字节
数据集大小: 19664 字节

数据内容与结构

数据条目总数: 164 个示例
数据分割: 仅包含一个“train”分割
特征字段:
- task_id: 字符串类型，任务标识符。
- entry_point: 字符串类型，入口点。
- is_executable: 布尔类型，表示是否可执行。
- is_correct: 布尔类型，表示是否正确。
- tests_passed: 整型，通过的测试数量。
- tests_failed: 整型，失败的测试数量。
- test_run_time_ms: 空值类型，测试运行时间（毫秒）。
- error_type: 字符串类型，错误类型。
- halstead_vocabulary: 整型，Halstead 词汇量。
- halstead_length: 整型，Halstead 长度。
- halstead_volume: 浮点型，Halstead 体积。
- halstead_difficulty: 浮点型，Halstead 难度。
- halstead_effort: 浮点型，Halstead 工作量。
- maintainability_index: 浮点型，可维护性指数。
- n_func_defined: 整型，定义的函数数量。
- entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在程序代码质量评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4数据集通过自动化测试与静态分析相结合的方式构建。其核心流程涉及对特定任务代码样本的执行验证，记录测试通过率与失败情况，并同步计算Halstead复杂度指标与可维护性指数等多维度度量。数据生成过程依托于系统化的代码运行环境，确保每个样本均附带可执行性、正确性及详尽的性能与结构特征标签，从而形成一套结构严谨的代码质量评估基准。

特点

该数据集显著特点在于其多维度的代码质量表征体系，不仅涵盖传统的测试通过数量与错误类型，还整合了Halstead软件科学度量，如词汇量、长度、体积、难度与工作量，并引入可维护性指数及函数定义数量等结构信息。这种综合性的特征设计使得数据集能够同时反映代码的功能正确性、复杂性与可维护性，为深入分析代码属性及其与模型性能的关联提供了丰富且结构化的数据基础。

使用方法

使用本数据集时，研究者可将其应用于代码生成模型的质量评估、复杂度分析或可维护性预测等任务。数据以标准表格形式组织，包含任务标识、入口点、可执行性标志、正确性标志、测试结果、各类复杂度指标及可维护性指数等字段。用户可通过加载训练分割，直接提取特征进行统计分析或作为机器学习模型的输入，以探索代码度量与功能性表现之间的内在联系，进而推动自动化代码评估与优化方法的发展。

背景与挑战

背景概述

在人工智能与代码生成领域，评估模型生成的代码质量一直是一个核心研究问题。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4数据集应运而生，旨在通过系统化的度量指标，深入分析代码的静态属性与动态执行表现。该数据集由相关研究团队构建，聚焦于自动化代码评估任务，通过整合Halstead复杂度度量、可维护性指数及测试通过率等多维度特征，为代码生成模型的性能优化提供了量化基准。其创建推动了代码智能领域从单纯的功能正确性评估，向代码可读性、可维护性等综合质量维度的拓展，对提升生成代码的实用性与可靠性具有显著影响力。

当前挑战

该数据集致力于解决代码生成领域中的综合质量评估挑战，即如何超越基础的功能正确性，系统衡量代码的复杂度、可维护性及执行效率。具体挑战包括：在领域问题层面，需平衡静态度量与动态测试结果之间的关联性，确保评估指标既能反映代码结构特性，又能预测其实际运行行为；在构建过程中，面临数据标注的复杂性，例如准确获取代码执行测试的通过状态、处理运行时错误类型分类，以及计算Halstead度量等静态指标时对代码解析的精确性要求，这些都对数据集的构建质量与一致性提出了较高要求。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g4数据集为研究者提供了一个系统性的基准平台，用于分析和比较不同代码生成模型的性能。该数据集通过整合任务执行结果、测试通过率及Halstead复杂度指标，支持对代码可执行性、正确性与维护性进行多维度的量化评估。经典应用场景包括在自动化代码生成研究中，作为模型输出的验证工具，帮助识别代码中的逻辑错误与结构缺陷，从而推动智能编程辅助系统的优化与迭代。

实际应用

在实际软件开发与教育场景中，该数据集可作为自动化代码评审与教学辅助工具的核心数据支撑。例如，在集成开发环境中嵌入基于该数据集的评估模块，能够实时检测生成代码的运行风险与维护难度；在编程课程中，教师可借助其量化指标分析学生代码的复杂度趋势，实现个性化学习指导。这些应用显著提升了代码质量监控的效率与编程技能培养的精准性。

衍生相关工作

围绕该数据集，学术界衍生出一系列经典研究工作，主要集中在代码生成模型的优化与评估框架创新上。例如，基于其Halstead指标与可执行性数据，研究者开发了新型代码质量预测模型，用于提前识别高维护成本代码片段；同时，该数据集也催生了多任务代码生成评估基准，推动了大语言模型在软件工程领域的适应性研究，为后续智能编程工具的演进奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集