autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，存储为Parquet格式，总大小19.8KB。数据集主要记录编程任务的执行与分析指标，包含16个结构化字段：任务ID（task_id）、入口函数（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试用例数（tests_passed/failed）、运行时错误类型（error_type）。此外包含完整的代码复杂度哈尔斯特德指标（halstead_vocabulary/length/volume/difficulty/effort）、可维护性指数（maintainability_index）、函数定义数量（n_func_defined）等静态分析数据。适用于代码质量评估、缺陷预测或程序修复等研究场景。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3
存储地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3
数据量: 164 个样本
数据集大小: 19805 字节
下载大小: 16043 字节

数据结构

数据特征

task_id: 字符串类型，标识任务。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，表示是否可执行。
is_correct: 布尔类型，表示是否正确。
tests_passed: 整数类型，通过的测试数量。
tests_failed: 整数类型，失败的测试数量。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整数类型，Halstead词汇量。
halstead_length: 整数类型，Halstead长度。
halstead_volume: 浮点数类型，Halstead体积。
halstead_difficulty: 浮点数类型，Halstead难度。
halstead_effort: 浮点数类型，Halstead工作量。
maintainability_index: 浮点数类型，可维护性指数。
n_func_defined: 整数类型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据划分

划分名称: train
样本数量: 164
字节大小: 19805

配置信息

配置名称: default
数据文件:
- 划分: train
- 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3数据集的构建体现了对模型生成代码质量的系统性量化分析。该数据集通过整合自动化测试框架与代码度量学指标，对模型生成的代码样本进行多维度评估。具体而言，构建过程涉及执行代码以验证其功能正确性，并计算Halstead复杂度、可维护性指数等静态分析指标，从而形成包含任务标识、执行状态、测试结果及代码度量特征的标准化记录。

特点

该数据集的核心特点在于其融合了动态执行验证与静态代码分析的双重评估维度。它不仅记录了代码是否通过测试用例（tests_passed, tests_failed）及错误类型（error_type），还纳入了Halstead度量（如词汇量、长度、难度）和可维护性指数等反映代码内在复杂性的指标。这种结构设计使得数据集能够同时捕捉代码的功能正确性与结构质量，为深入分析模型生成代码的可靠性与可维护性提供了丰富的数据支撑。

使用方法

使用该数据集时，研究者可将其应用于代码生成模型的性能评估与比较研究。通过分析is_correct、tests_passed等字段，可以评估模型生成代码的功能准确性；结合halstead_difficulty、maintainability_index等度量指标，则可进一步探究生成代码的结构复杂性与维护成本。数据集以标准化的表格形式组织，支持直接加载进行统计分析或作为下游任务（如代码质量预测、模型优化）的训练与验证数据，促进代码智能领域的实证研究。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量代码属性已成为提升开发效率与维护性的关键研究方向。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3数据集应运而生，聚焦于通过静态分析技术量化代码的复杂度、可维护性及执行正确性。该数据集由相关研究团队构建，旨在探索大语言模型在代码生成与优化任务中的性能表现，其核心研究问题涉及如何精准评估生成代码的功能完备性与结构质量，从而推动智能编程辅助工具的发展，对软件自动化测试与质量保障领域产生深远影响。

当前挑战

该数据集致力于解决代码生成与评估中的双重挑战：在领域问题层面，需应对生成代码的功能正确性验证难题，包括测试覆盖的全面性与执行效率的平衡；同时，代码结构度量如Halstead复杂度与可维护性指数的计算，要求模型在语义理解与静态分析上具备高精度。在构建过程中，挑战体现在数据采集与标注的复杂性上，例如确保代码样本的多样性、避免偏差，以及整合执行测试与静态度量工具链的技术整合，这些因素共同构成了数据集可靠性与实用性的关键瓶颈。

常用场景

经典使用场景

在软件工程与代码质量分析领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g3数据集为评估自动化生成代码的可靠性与可维护性提供了关键基准。该数据集通过整合Halstead复杂度指标、可维护性指数及执行测试结果，支持研究者对代码片段进行多维度量化分析，常用于训练和验证机器学习模型在代码生成任务中的性能，特别是在代码正确性预测与质量评估方面，为自动化编程工具的开发奠定了数据基础。

衍生相关工作

基于该数据集衍生的经典研究主要集中在代码生成模型的性能评估与优化方向。例如，研究者利用其度量特征开发了新型代码质量预测模型，增强了神经网络在代码语义理解方面的能力。同时，该数据集也催生了针对Halstead指标与可维护性指数的深入分析，推动了代码复杂度量化标准在自动化编程领域的广泛应用，为后续大规模代码质量基准的构建提供了重要参考。

数据集最近研究