autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含编程任务相关的执行数据和代码复杂度指标。数据集包含142个训练样本，总大小约16.8KB。每个样本包含以下特征：任务ID(task_id)、入口函数(entry_point)、是否可执行(is_executable)、是否正确(is_correct)、通过/失败的测试数量(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)。此外还包含多项代码复杂度指标：Halstead度量（词汇量、长度、体积、难度、工作量）、可维护性指数(maintainability_index)、定义函数数量(n_func_defined)以及入口点重复标志(entry_point_repeated)。该数据集适用于代码质量分析、程序自动评分、软件复杂度研究等任务。

创建时间：

2026-03-31

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5
总大小: 16877 字节
下载大小: 16914 字节

数据内容与结构

数据条数: 142 条
数据格式: 仅包含一个名为“train”的数据拆分。
特征字段:
- task_id: 字符串类型，任务标识符。
- entry_point: 字符串类型，入口点。
- is_executable: 布尔类型，表示是否可执行。
- is_correct: 布尔类型，表示是否正确。
- tests_passed: 整型，通过的测试数量。
- tests_failed: 整型，失败的测试数量。
- test_run_time_ms: 浮点型，测试运行时间（毫秒）。
- error_type: 字符串类型，错误类型。
- halstead_vocabulary: 整型，Halstead 词汇量。
- halstead_length: 整型，Halstead 长度。
- halstead_volume: 浮点型，Halstead 体积。
- halstead_difficulty: 浮点型，Halstead 难度。
- halstead_effort: 浮点型，Halstead 工作量。
- maintainability_index: 浮点型，可维护性指数。
- n_func_defined: 整型，定义的函数数量。
- entry_point_repeated: 布尔类型，入口点是否重复。

数据获取

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5数据集的构建体现了系统化工程思维。该数据集通过整合自动化测试框架与代码度量分析工具，对编程任务中的代码样本进行多维度采集。具体而言，它针对每个任务标识符（task_id）关联的入口函数（entry_point），执行可执行性验证与正确性测试，并记录测试通过与失败的数量及运行时间。同时，数据集融入了Halstead复杂度指标与可维护性指数等静态代码度量，以量化代码的结构特性。构建过程强调数据的一致性与可复现性，确保了142个训练样本在代码功能与质量属性上的双重标注。

使用方法

使用本数据集时，研究者可将其应用于代码质量预测、缺陷检测或自动化编程评估等任务。数据集以标准结构化格式组织，用户可通过加载训练分割（train split）直接访问所有142个样本。每个样本包含任务ID、入口点、执行结果、测试统计与代码度量等特征，便于进行监督学习或特征工程。例如，可将is_correct或maintainability_index作为预测目标，利用其他字段作为输入特征，构建分类或回归模型。数据集的轻量级设计（约16.8KB）确保了高效加载与处理，适用于快速实验迭代与基准测试。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与质量评估日益成为核心研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5'应运而生，其名称暗示了与自噬代码（autophagycode）及大语言模型Qwen3-14B的关联，可能由相关研究团队为探索代码生成模型的性能与可执行性而构建。该数据集聚焦于代码任务的自动化评估，通过整合任务标识、执行入口点、可执行性、正确性、测试通过率及多种代码度量指标（如Halstead复杂度与可维护性指数），旨在为代码生成模型的训练与验证提供结构化、多维度的基准数据。其创建反映了当前研究对提升生成代码功能性、可靠性及可维护性的迫切需求，有望推动智能编程助手与自动化软件测试工具的发展。

当前挑战

该数据集致力于解决代码生成领域的关键问题：如何系统评估生成代码的执行正确性、复杂度与可维护性。其核心挑战在于，代码生成不仅要求语法正确，更需确保语义准确且能通过多样化测试，这涉及对代码动态行为与静态属性的综合量化。在构建过程中，挑战具体体现为：需设计可靠的任务标识与入口点映射机制，以避免执行歧义；需采集并标准化大量代码度量指标，如Halstead参数与可维护性指数，这对数据清洗与特征工程提出高要求；同时，确保数据集中示例的可执行性与正确性标签的准确性，依赖于复杂的测试框架与人工验证，增加了构建成本与一致性维护难度。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g5数据集为自动化代码分析与缺陷检测提供了关键支持。该数据集通过整合Halstead复杂度度量、可维护性指数及测试执行结果等多维度特征，常用于训练和验证机器学习模型，以识别代码中的潜在错误或低效模式。研究人员利用其丰富的结构化指标，能够系统评估代码的健壮性与可读性，从而推动智能编程辅助工具的发展。

解决学术问题

该数据集有效应对了代码质量量化评估中的若干核心挑战，如如何客观衡量代码复杂度与可维护性，以及如何自动化检测代码执行中的功能性缺陷。通过提供标准化的度量指标与测试结果标签，它支持了基于数据的代码分析研究，减少了人工评估的主观偏差，并为构建可靠的代码质量预测模型奠定了实证基础。其意义在于促进了软件工程领域向数据驱动范式的转型，提升了代码评估的精确性与可扩展性。

实际应用

在实际软件开发流程中，该数据集可集成于持续集成与交付管道，用于实时监控代码提交的质量。开发团队能借助其度量结果，快速定位高复杂度或低可维护性的代码模块，从而优先进行重构或优化。此外，它还可应用于教育场景，辅助编程学习者理解代码质量与错误模式之间的关系，提升其编码规范意识与调试能力。

数据集最近研究