autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与编程任务或代码分析相关的结构化数据，共计142个训练样本。数据集主要特征包括：任务ID（task_id）、入口点（entry_point）、可执行状态（is_executable）、正确性（is_correct）、通过/失败的测试数量（tests_passed/tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）等执行相关指标，以及Halstead软件复杂度指标（包括词汇量、长度、体积、难度和努力值）、可维护性指数（maintainability_index）、定义函数数量（n_func_defined）等代码质量度量。数据集总大小为16,545字节，下载大小为16,906字节，仅包含训练集（train）划分。

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9
下载大小: 16906 字节
数据集大小: 16545 字节

数据内容与结构

数据条目数: 142 个示例
数据分割: 仅包含一个“train”分割
数据文件: 数据文件路径为 data/train-*

特征字段说明

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符
entry_point: 字符串类型，入口点
is_executable: 布尔类型，是否可执行
is_correct: 布尔类型，是否正确
tests_passed: 整型64位，通过的测试数
tests_failed: 整型64位，失败的测试数
test_run_time_ms: 浮点64位，测试运行时间（毫秒）
error_type: 字符串类型，错误类型
halstead_vocabulary: 整型64位，Halstead词汇量
halstead_length: 整型64位，Halstead长度
halstead_volume: 浮点64位，Halstead体积
halstead_difficulty: 浮点64位，Halstead难度
halstead_effort: 浮点64位，Halstead工作量
maintainability_index: 浮点64位，可维护性指数
n_func_defined: 整型64位，定义的函数数量
entry_point_repeated: 布尔类型，入口点是否重复

搜集汇总

数据集介绍

构建方式

在计算生物学与代码质量评估的交叉领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9数据集的构建体现了严谨的工程化流程。该数据集通过整合特定任务标识、入口点函数及执行状态等多维度特征，系统性地收集了代码样本。其构建过程侧重于自动化测试与静态代码度量，利用Halstead复杂度指标与可维护性指数等量化工具，对代码的结构与质量进行客观评估，从而形成了一套标准化的数据采集与标注体系。

特点

该数据集的核心特点在于其多维度的代码质量度量体系。它不仅记录了代码的执行正确性、测试通过率及运行时性能等动态属性，还深入分析了代码的静态复杂度，如词汇量、长度、体积、难度与工作量等Halstead指标，并辅以可维护性指数和函数定义数量等结构性特征。这种动态与静态相结合的综合视角，为深入理解代码行为与内在质量提供了丰富的数据基础，特别适用于机器学习模型在代码生成与优化任务中的训练与评估。

使用方法

在应用层面，该数据集主要服务于代码智能与软件工程研究。使用者可依据任务标识和入口点，将数据样本与特定编程问题相关联，进而分析代码的执行结果与质量度量之间的关系。通过整合is_correct、tests_passed及各类Halstead指标，研究人员能够训练模型以预测代码的正确性、复杂度或可维护性，亦可用于评估代码生成模型的输出质量。数据集以标准的表格格式组织，便于直接加载并进行特征工程与模型训练。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码质量评估与功能正确性验证是推动智能编程辅助系统发展的核心议题。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g9'由相关研究团队构建，旨在通过整合代码执行测试结果与Halstead复杂度度量等多维指标，为机器学习模型提供训练数据，以深入探索代码自动修复、缺陷检测及可维护性预测等前沿问题。该数据集的创建反映了当前学术界对提升代码生成与理解模型鲁棒性与实用性的迫切需求，其结构化特征设计为后续研究奠定了重要基础，有望在程序分析、自动化软件测试等方向产生持续影响力。

当前挑战

该数据集致力于应对代码功能正确性与质量度量联合评估的复杂挑战，其核心在于如何准确关联代码的静态复杂度特征与动态执行行为，以支持模型在真实场景下的泛化能力。构建过程中，研究人员需克服多重困难：一是确保代码样本的多样性与代表性，涵盖不同错误类型与复杂度分布；二是设计可靠且高效的自动化测试框架，以大规模验证代码执行结果并收集精确的运行时指标；三是整合异构度量标准（如Halstead指标与可维护性指数），使其在机器学习任务中具备一致性与可解释性，避免特征冗余或偏差影响模型性能。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集聚焦于自噬相关代码的自动化测试与度量分析。其经典使用场景涉及利用机器学习模型，特别是基于Qwen3-14B架构的模型，对代码片段的执行正确性、测试通过率及Halstead复杂度等静态指标进行联合建模。研究人员通过该数据集能够系统评估代码在给定任务下的功能性表现与内在结构特性，为自动化代码审查与质量预测提供基准数据支持。

解决学术问题

该数据集有效应对了代码质量多维评估中的关键学术挑战。它通过整合代码执行结果与静态度量指标，解决了传统研究中功能正确性与代码复杂度分析割裂的问题。其意义在于为代码可维护性、错误定位及测试充分性研究提供了统一的数据基础，推动了基于实证的软件度量学发展，并促进了机器学习在代码智能分析中的应用深化。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代码表示学习与质量预测模型的创新上。研究者基于其多维度特征，开发了融合执行轨迹与抽象语法树的神经网络架构，用于代码缺陷检测。同时，该数据集也催生了针对自噬领域特定代码模式的挖掘研究，以及基于Halstead度量的代码复杂度优化方法的实证比较，丰富了软件工程领域的知识体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集