autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码执行和质量评估相关的结构化数据。数据集由142个训练样本组成，每个样本包含多个特征字段，如任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）等。此外，还包括代码复杂度相关的Halstead度量（如词汇量、长度、体积、难度、工作量）以及可维护性指数（maintainability_index）和定义的函数数量（n_func_defined）。数据集适用于代码质量分析、自动化测试评估和软件工程研究等任务。

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7
下载大小: 16976 字节
数据集大小: 16597 字节

数据内容

数据条目数: 142 个示例
数据分割: 仅包含训练集（train）

特征字段

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 浮点型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead词汇量。
halstead_length: 整型，Halstead长度。
halstead_volume: 浮点型，Halstead体积。
halstead_difficulty: 浮点型，Halstead难度。
halstead_effort: 浮点型，Halstead工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

数据文件

配置名称: default
文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在程序代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7数据集的构建体现了严谨的自动化流程。该数据集通过执行代码任务并收集运行时指标来生成，每个样本对应一个特定的任务标识与入口点，系统自动运行测试以验证代码的可执行性与正确性，并记录通过和失败的测试数量。同时，构建过程整合了哈尔斯特德复杂度指标与可维护性指数等静态代码分析结果，确保了数据在功能表现与内在质量维度上的全面性。

特点

该数据集的核心特征在于其多维度的代码质量度量体系。它不仅包含了代码是否可执行、是否正确的基础判断，还量化了测试通过率与运行时间等动态性能指标。更为突出的是，数据集引入了哈尔斯特德度量套件，如词汇量、长度、体积、难度与工作量，以及可维护性指数和函数定义数量，这些指标共同构成了对代码复杂性与可维护性的深度刻画。数据字段如entry_point_repeated还揭示了代码结构中的重复模式，为分析提供了额外视角。

使用方法

研究人员与开发者可将该数据集直接应用于代码质量分析与模型训练任务。典型的使用场景包括：利用任务标识与入口点信息定位具体代码实例；依据is_executable和is_correct字段筛选有效样本；基于tests_passed与tests_failed评估功能可靠性；结合halstead_volume、difficulty及maintainability_index等指标，构建或验证代码质量预测模型。数据集以标准分割格式组织，便于加载并进行后续的统计分析或机器学习流程。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量与测试执行分析已成为提升开发效率与可靠性的关键研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7'由相关研究团队构建，旨在通过集成Halstead复杂度度量、可维护性指数及测试通过率等多维特征，系统评估代码的静态属性与动态执行表现。该数据集聚焦于代码功能的正确性验证与质量量化，为机器学习模型在代码生成、缺陷检测及优化建议等任务提供结构化基准，推动了智能编程辅助工具的发展。

当前挑战

该数据集致力于解决代码质量综合评估的复杂问题，其核心挑战在于如何精准量化代码的可靠性、可维护性与执行效率之间的平衡关系。构建过程中，需克服测试用例覆盖的完备性、度量指标选取的代表性以及代码样本多样性的协调难题，同时确保执行环境的一致性与误差控制的严谨性，以保障数据标注的准确性与泛化能力。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g7数据集为研究代码自动生成与测试验证提供了关键支撑。该数据集通过整合任务标识、执行点、可执行性、正确性及测试通过率等多维度特征，常用于训练和验证基于大语言模型的代码生成系统，特别是在评估生成代码的功能正确性、可维护性及复杂度指标方面，为自动化编程工具的性能优化提供了标准化基准。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代码生成模型的微调策略、测试用例生成算法及代码质量预测模型等领域。例如，基于其Halstead指标与可维护性指数，研究者开发了多种神经网络架构以提升代码生成的功能正确率；同时，结合测试通过率数据，推动了自适应测试生成与错误定位方法的发展，为后续代码智能体与自动化软件工程研究奠定了数据基础。

数据集最近研究