autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个训练样本，总大小为16,676字节。每个样本包含多个特征，包括任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）、Halstead软件度量指标（halstead_vocabulary, halstead_length, halstead_volume, halstead_difficulty, halstead_effort）、可维护性指数（maintainability_index）、定义函数数量（n_func_defined）以及入口点是否重复（entry_point_repeated）。数据集适用于软件工程领域的代码质量分析、缺陷检测和可维护性评估等任务。

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4
数据量: 142 个样本
数据集大小: 16,676 字节
下载大小: 16,738 字节

数据结构

特征字段

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 浮点型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead词汇量。
halstead_length: 整型，Halstead长度。
halstead_volume: 浮点型，Halstead体积。
halstead_difficulty: 浮点型，Halstead难度。
halstead_effort: 浮点型，Halstead工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据划分

训练集: 包含全部 142 个样本。

配置信息

默认配置: 数据文件路径为 data/train-*。

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4数据集的构建体现了严谨的工程化流程。该数据集通过自动化测试框架对代码样本进行系统化验证，确保每个条目均具备可执行性与正确性标识。构建过程中，不仅采集了任务标识与入口点等基础元数据，还整合了Halstead复杂度指标与可维护性指数等多维度代码度量特征，从而形成了一套结构化的评估基准。

特点

该数据集的核心特点在于其丰富的代码质量量化表征。除记录测试通过率与运行时间等性能指标外，还涵盖了词汇量、长度、难度及工作量等Halstead度量参数，为深入分析代码复杂度提供了数据支撑。同时，可维护性指数与函数定义数量的引入，使得研究者能够从软件工程角度评估生成代码的长期可持续性，为代码生成模型的优化提供了细致入微的观察视角。

使用方法

使用本数据集时，可将其作为训练或验证集，应用于代码生成模型的性能评估与调优。研究者可通过任务标识与入口点定位具体代码实例，结合测试结果与复杂度指标，综合分析模型在功能性、效率及代码质量等方面的表现。数据集中的布尔型字段如可执行性标识，有助于快速筛选有效样本，而各类数值型度量则支持统计分析与可视化，为模型改进提供实证依据。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量与分析已成为提升开发效率与维护性的关键研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4'应运而生，其名称暗示了与自噬代码（autophagycode）概念及大语言模型Qwen3-14B的关联，可能由相关研究团队在近期构建，旨在通过集成Halstead复杂度、可维护性指数等多维度度量特征，深入探索代码执行正确性、错误类型与结构属性之间的复杂关系。该数据集聚焦于代码功能验证与质量预测的核心问题，为智能化代码审查、缺陷检测及模型训练提供了结构化基准，有望推动编程辅助工具与软件工程人工智能的实质性进展。

当前挑战

该数据集致力于应对代码功能正确性自动评估与质量预测的挑战，具体体现为如何准确关联代码的静态度量指标（如Halstead参数）与动态执行结果（如测试通过率、错误类型），从而在复杂多变的编程任务中实现可靠预测。在构建过程中，挑战主要源于多源异构数据的整合，包括确保代码样本的执行环境一致性、处理大规模测试套件生成的耗时问题，以及平衡度量特征的维度与噪声，以构建既全面又精确的训练样本。这些挑战要求数据集设计在可扩展性、真实性与计算效率之间取得微妙平衡。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g4数据集为研究者提供了一个系统性的基准工具，专门用于训练和验证代码自动生成与修复模型。该数据集通过整合多项代码度量指标，如Halstead复杂度与可维护性指数，能够模拟真实编程任务中的代码执行与错误检测场景。其经典应用体现在支持大语言模型在代码生成任务上的微调与优化，帮助模型学习如何生成既符合语法规范又具备良好可维护性的代码片段，从而提升自动化编程工具的实用性与可靠性。

实际应用

在实际软件开发流程中，该数据集可被集成到持续集成与代码审查系统中，辅助自动化测试与质量监控。例如，开发团队可利用其训练出的模型，在代码提交阶段即时预测潜在的执行错误或维护难点，从而提前规避缺陷并优化代码结构。此外，它还能服务于教育科技领域，为学生编程练习提供智能反馈，或用于企业级代码库的自动化重构与优化，显著提升软件开发的效率与产品质量。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代码生成模型的评估框架与质量增强方法上。例如，基于其度量指标的研究推动了如CodeBLEU等新型评估指标的提出，以更全面地衡量代码的功能性与可读性。同时，该数据集也催生了针对特定错误类型（如逻辑错误或运行时异常）的专门化修复模型，以及结合可维护性指数进行代码重构的生成式方法，这些工作共同丰富了代码智能领域的技术生态与应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集