autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个代码任务样本，存储为训练集单一分割。每个样本包含16个结构化特征：1) 基础标识（task_id, entry_point）；2) 执行验证结果（is_executable, is_correct, tests_passed/failed）；3) 代码质量指标（halstead复杂度四维指标、maintainability_index）；4) 结构特征（n_func_defined, entry_point_repeated）。数据规模为18.5KB，未提供测试运行时间（test_run_time_ms标记为null）。适用于代码正确性验证、软件质量分析等任务，特征设计表明其可能用于机器学习辅助的代码评估场景。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1

数据集结构与内容

数据特征

数据集包含以下字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，表示是否可执行。
is_correct: 布尔类型，表示是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead词汇量。
halstead_length: 整型，Halstead长度。
halstead_volume: 浮点型，Halstead体积。
halstead_difficulty: 浮点型，Halstead难度。
halstead_effort: 浮点型，Halstead工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据划分

训练集: 包含164个样本，数据大小为18563字节。

数据集规模

下载大小: 16829字节
数据集大小: 18563字节

配置信息

默认配置: 数据文件路径为 data/train-*，对应训练集划分。

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，数据集的质量直接影响模型性能的可靠度量。该数据集通过系统化的流程构建，首先从特定任务集合中提取代码样本，随后利用自动化测试框架对代码的执行正确性进行验证，并记录测试通过与否的详细结果。进一步地，数据集整合了多种代码复杂度度量指标，如Halstead度量与可维护性指数，这些指标通过静态分析工具计算得出，从而为每段代码提供了多维度的量化特征。整个构建过程强调自动化与可复现性，确保了数据的一致性与科学性。

使用方法

该数据集主要服务于代码生成模型的研究与评估工作。使用者可通过加载数据集，直接访问每个样本的任务标识、代码入口点、执行正确性标志以及完整的测试结果。在进行模型性能分析时，研究者可以结合执行正确性与测试通过率来评估生成代码的功能可靠性。同时，利用数据集提供的Halstead度量与可维护性指数，可以进行代码复杂度与质量的相关性研究，例如探究模型生成代码的复杂性与错误率之间的关联。数据集通常以标准表格格式组织，便于集成到现有的机器学习管道中，用于训练监督模型、作为评估基准或进行深入的代码属性统计分析。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正逐步成为研究热点。数据集'autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1'应运而生，其名称暗示了与自噬代码（autophagycode）及大语言模型Qwen3-14B的关联，可能由相关研究团队为探索代码质量自动评估而构建。该数据集聚焦于代码执行正确性、可维护性及复杂度度量，通过整合Halstead复杂度指标与可维护性指数等特征，旨在为代码生成模型的性能提供细粒度量化分析。其创建反映了当前学术界对提升代码功能性、可靠性及长期维护效率的迫切需求，有望推动自动化软件测试与智能编程助手等方向的发展。

当前挑战

该数据集致力于应对代码生成领域的关键挑战：如何准确、高效地评估生成代码的功能正确性与软件质量。具体而言，挑战体现在两方面：在领域问题层面，需解决代码语义等价性判定、边界条件覆盖以及复杂逻辑正确性验证等难题，这些直接影响评估的可靠性；在构建过程中，挑战涉及大规模代码执行环境的可靠部署、测试用例的全面性设计，以及复杂度指标（如Halstead度量）与可维护性指数的标准化计算，确保数据的一致性与可复现性。这些挑战共同制约着代码生成模型评估体系的完善与实用化进程。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g1数据集为研究者提供了一个系统性的基准，用于分析代码的复杂性与可维护性。该数据集通过整合Halstead复杂度指标与可维护性指数，能够量化代码的结构特征，支持自动化代码审查与质量预测模型的开发。其典型应用场景包括评估机器学习生成的代码片段在功能正确性之外的内部质量，为代码生成系统的优化提供数据支撑。

解决学术问题

该数据集有效解决了代码质量度量中缺乏标准化评估框架的学术挑战，通过引入多维度指标如Halstead难度、努力度与可维护性指数，为代码复杂度与可维护性的关联研究提供了实证基础。它帮助研究者探索代码结构属性与错误率、测试通过率之间的关系，推动了软件度量学在智能代码生成领域的应用，促进了代码质量评估从主观经验向客观量化的转变。

实际应用

在实际软件开发流程中，该数据集可集成于持续集成与交付管道，用于自动化检测代码库中的潜在维护问题。例如，结合测试通过率与Halstead指标，开发团队能够优先重构高复杂度、低可维护性的代码模块，从而提升软件系统的长期稳定性。此外，它还可作为教育工具，帮助初学者理解代码质量的关键影响因素，辅助编程教学与技能培训。

数据集最近研究