autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个训练样本，总大小为16703字节。数据集提供了多个特征字段，包括任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）、Halstead复杂度指标（halstead_vocabulary, halstead_length, halstead_volume, halstead_difficulty, halstead_effort）、可维护性指数（maintainability_index）、定义的函数数量（n_func_defined）以及入口点是否重复（entry_point_repeated）。这些特征主要用于代码分析和软件质量评估任务，适用于研究代码复杂度、错误检测和软件维护性等领域。

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3
数据量: 142 个样本
数据集大小: 16,703 字节
下载大小: 16,867 字节

数据结构

数据集包含一个名为 train 的分割，包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 浮点型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在程序代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3数据集通过系统化方法构建而成。其核心流程涉及对代码样本的自动化测试与静态分析，具体包括执行预定义的测试用例以验证代码功能正确性，并运用Halstead复杂度度量、可维护性指数等指标对代码结构进行量化评估。数据生成过程整合了任务标识、入口点检测以及错误类型分类等多维度信息，最终形成包含142个训练样本的结构化记录，确保了数据在反映代码执行行为与内在质量特性上的可靠性与一致性。

特点

该数据集在代码质量分析方面展现出鲜明的特征。其数据结构涵盖了从基础的任务标识与可执行性判断，到详细的测试通过率、运行时间及错误分类等多层次信息。尤为突出的是，它系统集成了Halstead软件科学度量系列，如词汇量、长度、体积、难度与工作量，并结合可维护性指数与函数定义数量等指标，为代码复杂度与可维护性提供了全面的量化视角。这种多维特征融合使得数据集能够同时刻画代码的功能正确性、执行效率以及内在的结构质量。

使用方法

对于研究者与开发者而言，该数据集主要用于训练与评估代码质量预测或自动修复模型。典型的使用流程始于加载默认配置下的训练分割数据，随后可依据任务标识或入口点对样本进行筛选或分组。在模型开发中，可将测试结果、错误类型及各类复杂度指标作为特征输入，而将代码正确性或可维护性指数作为预测目标。数据集中包含的布尔型与数值型字段便于直接进行统计分析或作为机器学习模型的训练标签，为探索代码属性与质量之间的关联提供了直接可用的基准数据。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量分析已成为提升开发效率与维护性的关键研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3'由相关研究团队于近期构建，旨在通过整合Halstead复杂度指标、可维护性指数及执行测试结果等多维度特征，系统评估代码的功能正确性、结构复杂性与运行可靠性。该数据集聚焦于代码自动生成与优化任务，为机器学习模型在代码理解与生成方面的性能提供了精细化评估基准，推动了智能编程辅助工具的发展。

当前挑战

该数据集致力于解决代码质量自动化评估中的核心挑战，即如何准确量化代码的复杂度、可维护性与功能正确性之间的平衡关系。构建过程中面临多重困难：一方面，代码度量指标的选取需兼顾理论严谨性与实践相关性，例如Halstead指标虽能反映代码复杂度，但可能忽略语义层面的逻辑错误；另一方面，数据收集需确保代码样本的多样性与代表性，同时处理测试执行中的动态行为差异，如运行时间波动与错误类型分类，这对数据标注的准确性与一致性提出了较高要求。

常用场景

经典使用场景

在代码质量评估与自动修复领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g3数据集被广泛应用于机器学习模型的训练与验证。该数据集通过整合Halstead复杂度指标、可维护性指数及测试执行结果等多维度特征，为研究者提供了丰富的代码属性与行为数据。其经典使用场景包括训练模型以预测代码的可执行性、正确性及错误类型，从而支持自动化代码审查与质量分析任务。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于度量指标的代码缺陷预测模型、结合测试结果的代码修复建议系统，以及利用复杂度特征进行代码克隆检测的方法。这些工作进一步扩展了数据集的用途，例如在神经代码生成任务中作为评估基准，或在程序合成研究中用于验证生成代码的功能正确性。相关成果显著丰富了代码智能领域的理论与应用体系。

数据集最近研究