autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，主要用于程序代码的质量分析与执行验证。每个样本包含16个结构化字段：1) 标识字段（task_id, entry_point）；2) 执行状态字段（is_executable, is_correct, tests_passed, tests_failed）；3) 代码复杂度指标（halstead_vocabulary等5个Halstead度量值，maintainability_index）；4) 功能特征（n_func_defined, entry_point_repeated）。数据集总大小18.5KB，适用于软件工程领域的代码质量评估、缺陷预测等任务，特别适合需要结合程序静态特征与动态执行结果的研究场景。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3

数据规模

总数据量: 18551 字节
下载大小: 16666 字节
样本数量: 164 个示例
数据划分: 仅包含训练集（train）

数据结构与特征

数据集包含以下字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据文件

配置名称: default
文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在计算生物学与程序代码分析交叉领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3数据集的构建体现了对自动化代码生成与评估的深度探索。该数据集通过系统性地收集与自噬（autophagy）相关的编程任务代码，并利用Qwen3-14B模型在特定学习率与生成配置下产生代码样本，进而整合了执行测试结果与静态代码度量指标。构建过程强调代码的功能正确性与结构质量的双重验证，确保了数据样本既具备可执行性，又蕴含丰富的软件工程特征，为后续分析提供了可靠的基础。

使用方法

使用该数据集时，研究者可将其应用于代码生成模型的评估与优化研究。通过加载数据集中包含的代码样本及其对应的度量指标，可以分析模型生成代码的执行成功率、错误模式以及代码结构特性。数据集支持基于任务标识或入口点的查询，便于针对特定编程任务进行性能对比。此外，整合的静态度量指标可用于构建回归或分类模型，以预测代码质量或识别潜在缺陷，从而推动自动化代码生成技术在生物信息学等领域的应用与发展。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量与缺陷检测是提升软件可靠性与维护效率的核心研究方向。autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3数据集由相关研究团队构建，聚焦于通过静态代码分析指标（如Halstead复杂度、可维护性指数等）来量化代码属性，并评估大型语言模型生成的代码在功能性、可执行性及质量方面的表现。该数据集旨在为代码生成模型的优化与验证提供结构化基准，推动智能编程辅助工具的发展，对软件自动化测试与质量保障具有重要影响。

当前挑战

该数据集致力于解决代码生成与质量评估中的双重挑战：在领域层面，如何准确衡量生成代码的功能正确性、复杂性与可维护性，以应对现实世界中代码多样性高、边界条件复杂的评估难题；在构建过程中，需整合多维度度量指标（如测试通过率、错误类型、Halstead参数等），并确保数据标注的准确性与一致性，同时处理代码执行环境差异带来的可复现性问题，这些都对数据集的可靠性与泛化能力构成了显著考验。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合Halstead复杂度指标与可维护性指数等静态分析特征，为自动化代码评估提供了结构化基准。经典使用场景涉及训练机器学习模型以预测代码片段的正确性与可维护性，尤其在代码生成、缺陷检测及编程教育中，模型可依据这些指标快速识别潜在错误或低效代码，辅助开发者优化编程实践。

解决学术问题

该数据集有效解决了代码质量量化评估中的关键学术问题，如如何客观衡量代码复杂度、可维护性与执行正确性之间的关联。通过提供多维度静态指标与测试通过率的标注数据，它支持研究者探索代码属性与功能可靠性之间的统计规律，推动了软件度量学与智能软件工程领域的实证研究，为自动化代码审查工具的开发奠定了数据基础。

实际应用

在实际应用中，该数据集可集成至持续集成/持续部署（CI/CD）管道，实现代码提交的实时质量监控。企业或开源项目能利用其训练的分类模型，自动筛选高错误风险或低可维护性的代码片段，从而提升团队开发效率与软件稳定性。此外，在教育场景中，它可作为编程练习的自动评分工具，为学生提供即时反馈。

数据集最近研究