autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务相关的执行记录与代码质量分析数据。每个样本记录包含16个结构化字段：任务标识符(task_id)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试案例计数(tests_passed/tests_failed)、错误类型(error_type)等执行信息，以及Halstead复杂度指标(halstead_vocabulary/length/volume/difficulty/effort)、可维护性指数(maintainability_index)、定义函数数量(n_func_defined)等静态分析指标。数据集仅包含训练集(train)，总大小18.4KB，适用于代码质量评估、程序错误检测或自动化测试生成等任务。

创建时间：

2026-04-08

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10
数据量: 164 个样本
数据集大小: 18422 字节
下载大小: 16804 字节

数据结构

数据集包含一个名为 train 的分割，包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数。
tests_failed: 整型，失败的测试数。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

配置名称: default
数据文件: train 分割的数据文件路径为 data/train-*。

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10数据集通过系统化流程构建而成。其基础源于对特定编程任务的代码生成结果进行收集与整理，随后引入自动化测试框架以验证代码的可执行性与正确性。构建过程中，数据集整合了Halstead复杂度指标与可维护性指数等软件度量学特征，这些特征通过静态代码分析工具计算得出，确保了数据在质量与量化维度上的双重可靠性。最终，数据集以结构化格式封装，包含164个训练样本，为后续模型评估提供了扎实的数据基础。

特点

该数据集的核心特点体现在其多维度的评估体系与精细的代码质量度量上。除了记录代码是否可执行与正确的基本二元标签外，数据集还详细统计了测试通过与失败的数量，为模型性能提供了更细致的量化视角。尤为突出的是，它引入了Halstead软件科学度量，包括词汇量、长度、体积、难度与努力值，以及可维护性指数和函数定义数量等指标，这些特征共同构成了对生成代码内部结构与复杂度的全面刻画。这种结合功能正确性与代码内在属性的设计，使得数据集能够支持从表面功能到深层代码质量的综合评估。

使用方法

使用该数据集时，研究者可将其直接应用于代码生成模型的训练与评估流程。数据集以标准的表格格式组织，每个样本对应一个唯一的任务标识符和入口点，便于进行任务级别的分析与对比。用户可以通过检查‘is_executable’和‘is_correct’字段快速筛选出有效代码，并利用‘tests_passed’、‘tests_failed’及各类Halstead度量进行深入的性能分析与代码质量研究。数据集仅包含训练分割，适用于监督学习或作为评估基准，加载后即可与主流机器学习框架集成，推动代码智能领域模型的优化与创新。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正逐步成为研究热点。数据集'autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10'由相关研究团队构建，聚焦于自动化代码质量度量与功能正确性验证。该数据集通过集成Halstead复杂度指标与可维护性指数等软件工程经典度量，旨在为大型语言模型生成的代码提供多维评估基准。其核心研究问题在于如何量化生成代码的结构特性与执行可靠性，从而推动代码生成模型向更高精度与实用性发展，对提升自动化编程工具的鲁棒性具有显著影响力。

当前挑战

该数据集致力于应对代码生成领域的关键挑战，即如何准确评估生成代码的功能正确性与结构质量。具体而言，挑战体现在两方面：在领域问题层面，代码生成任务需克服语义等价性判定、边界条件覆盖以及复杂逻辑表达的可靠性验证等难题；在构建过程中，挑战涉及大规模测试用例的自动化执行、多样化错误类型的系统分类，以及将软件工程度量指标与机器学习评估框架进行有效融合，确保数据标注的一致性与可复现性。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10数据集被广泛应用于自动化代码分析与缺陷检测研究。该数据集通过整合Halstead复杂度度量、可维护性指数及测试执行结果等多维特征，为机器学习模型提供了丰富的训练样本，以识别代码中的潜在错误或低效模式。研究人员常利用其评估代码的健壮性与可维护性，推动智能编程辅助工具的发展。

衍生相关工作

基于该数据集衍生的经典工作包括智能代码审查系统与自适应缺陷预测框架的开发。研究者利用其多维特征训练深度学习模型，如卷积神经网络或Transformer架构，以提升代码错误检测的准确率。这些工作进一步扩展了数据集中度量指标的应用范围，推动了软件仓库挖掘与代码生成领域的交叉研究，为自动化软件工程工具链的完善提供了理论支撑。

数据集最近研究