autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与编程任务相关的信息，主要用于代码执行、正确性及可维护性分析。数据集包含142个训练样本，每个样本具有多个特征，包括任务ID、入口点、是否可执行、是否正确、通过和失败的测试数量、测试运行时间、错误类型、以及一系列代码复杂度指标（如Halstead度量和可维护性指数）。数据集还记录了每个样本中定义的函数数量和入口点是否重复。数据以训练集的形式提供，总大小为16569字节。

This dataset contains information related to programming tasks, primarily used for code execution, correctness, and maintainability analysis. It includes 142 training samples, each with multiple features such as task ID, entry point, executability status, correctness status, the number of passed and failed tests, test runtime, error type, and a series of code complexity metrics (e.g., Halstead metrics and Maintainability Index). The dataset also records the count of defined functions in each sample and whether entry points are duplicated. The data is provided in the form of a training set, with a total size of 16569 bytes.

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本描述

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8
数据规模: 下载大小 16907 字节，数据集大小 16569 字节。
数据格式: 包含一个名为 train 的训练集分割，共有 142 个样本。

数据结构

数据集包含以下字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 浮点型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

配置名称: default
数据文件: 训练集数据文件路径为 data/train-*。

搜集汇总

数据集介绍

构建方式

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8数据集的构建体现了对自动化代码分析的前沿探索。该数据集通过集成代码执行测试与静态度量计算，系统性地收集了142个训练样本。每个样本均关联特定任务标识与入口点，并经过可执行性验证，同时记录测试通过率、运行时间及错误类型。进一步，数据集融合了Halstead复杂度指标与可维护性指数等多维度静态分析结果，形成了一套结构化的代码质量评估框架。

特点

该数据集的核心特点在于其多维度的代码质量度量体系。它不仅涵盖传统的执行正确性与测试覆盖率，如is_correct、tests_passed等字段，还深入整合了Halstead软件科学度量，包括词汇量、长度、体积、难度与努力值，为代码复杂度提供了量化视角。此外，可维护性指数与自定义函数数量等指标，共同构建了一个从动态执行到静态分析的全面评估网络。这种设计使得数据集能够同时反映代码的功能可靠性与结构特性，适用于复杂的代码质量研究场景。

使用方法

使用该数据集时，研究者可将其应用于代码质量预测、缺陷检测或自动化评估模型的训练。数据集以标准结构化格式提供，包含train单一分割，可直接加载进行机器学习任务。用户可依据task_id与entry_point追踪具体代码实例，结合is_executable与error_type分析执行行为，并利用Halstead度量与maintainability_index等特征构建回归或分类模型。通过整合测试结果与静态指标，该数据集支持端到端的代码质量分析流程，为软件工程实证研究提供可靠数据基础。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正成为研究热点。autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8数据集应运而生，其名称暗示了与自噬机制或代码质量自动评估相关的背景。该数据集由研究团队基于Qwen3-14B模型在特定学习率与信任度设置下构建，核心目标在于通过多维度指标（如Halstead复杂度、可维护性指数及测试通过率）系统化评估生成代码的功能正确性、结构复杂性与执行效率。其创建旨在推动自动化代码质量分析，为智能编程助手、代码审查工具及软件维护提供数据支撑，对提升软件开发自动化水平具有潜在影响力。

当前挑战

该数据集致力于解决代码生成领域中的质量评估难题，其挑战体现在多个层面。在领域问题方面，如何准确量化代码的功能正确性与结构质量是一大难点，需平衡测试覆盖度与复杂度指标之间的关联性；同时，生成代码的可执行性验证涉及动态运行时分析，易受环境依赖与异常处理干扰。构建过程中，数据收集需确保代码样本的多样性与代表性，避免偏差；指标计算如Halstead参数与可维护性指数的标准化处理亦面临算法一致性挑战，且大规模测试执行可能引入性能开销，影响数据集构建效率。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g8数据集为研究者提供了一个系统性的基准工具，专门用于训练和验证代码自动修复与生成模型。该数据集通过整合任务标识、可执行性验证、测试通过率及Halstead复杂度等多维度特征，支持模型在模拟真实编程环境中学习代码结构与功能逻辑的映射关系，从而优化代码生成与错误检测的准确性。

解决学术问题

该数据集有效应对了代码智能领域中模型泛化能力不足与评估标准缺失的挑战。通过提供标准化的代码任务样本与量化指标，如可维护性指数与测试覆盖率，它助力研究者深入探究代码语义理解、缺陷定位及自动化修复等核心问题，推动了代码质量评估从主观经验向客观数据驱动的范式转变，为软件可靠性研究奠定了实证基础。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究，例如基于深度学习的代码补全模型优化、测试用例生成算法的改进，以及代码复杂度与错误率关联性分析。这些工作不仅拓展了代码智能的应用边界，还促进了如CodeXGLUE、HumanEval等基准平台的演进，为后续大规模代码预训练模型的发展提供了关键数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集