autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个编程任务的执行与分析数据，主要记录代码任务的测试结果与软件复杂度指标。每个样本包含16个结构化字段：任务ID（task_id）、入口函数（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试用例数（tests_passed/tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）。同时包含Halstead软件复杂度指标（词汇量、长度、体积、难度、工作量）、可维护性指数（maintainability_index）、定义函数数量（n_func_defined）及入口点重复标记（entry_point_repeated）。数据集仅包含训练集（train），总大小16,463字节，适用于代码质量分析、自动程序修复等软件工程任务。

创建时间：

2026-03-31

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2
存储地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2
配置名称: default
总下载大小: 16881 字节
数据集大小: 16463 字节

数据内容与结构

数据特征

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 浮点型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据划分

划分名称: train
样本数量: 142 个
数据大小: 16463 字节

文件信息

数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0-0001_trust_g2数据集的构建体现了对程序质量与功能性的双重考量。该数据集基于特定训练配置下的代码生成任务，通过系统化收集任务标识、入口点及执行状态等核心元数据，并整合了Halstead复杂度指标与可维护性指数等多维度代码度量特征。其构建过程注重代码样本的可执行性与正确性验证，确保了数据在反映模型生成能力的同时，也涵盖了软件工程中关键的静态分析维度。

使用方法

使用该数据集时，研究者可将其应用于代码生成模型的评估与比较研究。通过任务标识与入口点信息，可以追溯代码的生成上下文；利用执行状态、测试结果及错误类型字段，能够评估生成代码的功能正确性与鲁棒性；而结合各类Halstead度量与可维护性指数，则可进一步分析生成代码的复杂度与软件工程质量。该数据集适用于训练或验证旨在优化代码功能性、效率或可维护性的机器学习模型，为代码智能领域的研究提供结构化基准。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量与分析已成为提升开发效率与维护性的关键研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2'由相关研究团队构建，其核心目标在于通过整合Halstead复杂度度量、可维护性指数及执行测试结果等多维度特征，系统评估代码的功能正确性、结构复杂性与执行性能。该数据集聚焦于代码自动生成与优化任务，旨在为机器学习模型提供训练基准，推动智能编程辅助工具的发展，对软件测试、代码审查及人工智能驱动开发等方向具有潜在影响力。

当前挑战

该数据集致力于应对代码功能正确性与质量评估的复合挑战，具体包括准确判定生成代码的执行可靠性、平衡结构复杂度与可维护性之间的权衡，以及处理多样化错误类型的分类问题。在构建过程中，研究人员需克服大规模代码执行测试的耗时性、确保度量指标（如Halstead参数）计算的精确性，并整合异构数据源以维持特征间的一致性，这些技术难点对数据集的规模扩展与泛化能力构成了显著制约。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g2数据集为研究者提供了丰富的代码度量特征，如Halstead复杂度与可维护性指数，这些指标常用于自动化代码审查与缺陷预测。通过分析代码的结构属性与执行结果，该数据集支持构建机器学习模型，以识别潜在的错误模式或低效代码片段，从而优化编程实践。其经典应用场景包括训练智能代码分析工具，帮助开发者在不依赖人工干预的情况下，评估代码的可靠性与效率，推动软件质量的持续改进。

解决学术问题

该数据集直接应对软件工程中的核心挑战，即如何量化代码质量并预测其可维护性。通过整合执行测试结果与静态代码度量，它解决了传统方法中代码评估主观性强、依赖专家经验的问题。研究者可利用这些数据探索代码复杂度与错误率之间的关联，为自动化测试生成、代码重构建议提供实证基础，从而降低软件开发成本，提升系统稳定性，对推动软件工程学科的实证研究具有重要理论意义。

实际应用

在实际软件开发流程中，该数据集可集成至持续集成与交付管道，实现实时代码质量监控。企业能够利用其度量指标自动筛选高风险代码模块，优先分配测试资源，或为团队提供个性化编码规范反馈。例如，在大型开源项目或企业级应用中，它有助于早期发现技术债务，减少生产环境故障，同时支持教育场景中的编程教学，通过数据驱动的方式帮助学生理解代码优化原则，提升整体开发效率与软件交付质量。

数据集最近研究