autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码执行和软件度量相关的结构化数据，主要用于分析和评估代码质量。数据集包含164个训练样本，每个样本包含多个特征字段，如任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、错误类型（error_type）等。此外，还包含一系列Halstead度量指标（如词汇量、长度、体积、难度、工作量）和可维护性指数（maintainability_index），以及定义的函数数量（n_func_defined）和入口点是否重复（entry_point_repeated）等信息。数据集适用于代码质量分析、软件度量研究和自动化测试等任务。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2
下载大小: 16,692 字节
数据集大小: 18,659 字节

数据内容与结构

数据条目总数: 164 个示例
数据分割: 仅包含一个“train”分割
特征字段:
- task_id: 字符串类型，任务标识符。
- entry_point: 字符串类型，入口点。
- is_executable: 布尔类型，指示是否可执行。
- is_correct: 布尔类型，指示是否正确。
- tests_passed: 整型，通过的测试数量。
- tests_failed: 整型，失败的测试数量。
- test_run_time_ms: 空值类型，测试运行时间（毫秒）。
- error_type: 字符串类型，错误类型。
- halstead_vocabulary: 整型，Halstead 词汇量。
- halstead_length: 整型，Halstead 长度。
- halstead_volume: 浮点型，Halstead 体积。
- halstead_difficulty: 浮点型，Halstead 难度。
- halstead_effort: 浮点型，Halstead 工作量。
- maintainability_index: 浮点型，可维护性指数。
- n_func_defined: 整型，定义的函数数量。
- entry_point_repeated: 布尔类型，入口点是否重复。

配置与访问

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2数据集通过系统化流程构建而成。该数据集聚焦于编程任务的自动化评估，其核心方法涉及从特定任务集合中提取代码样本，并运用Halstead复杂度指标与可维护性指数等软件度量学工具进行量化分析。构建过程中，每个样本均经过执行测试以验证功能性，同时记录测试通过率与错误类型，确保了数据在代码质量评估方面的科学性与可靠性。

使用方法

对于使用者而言，该数据集主要服务于代码生成模型的训练与评估。研究人员可将数据集中的`task_id`、`entry_point`及各项度量指标作为特征输入，用于训练能够预测代码质量或优化代码生成的模型。同时，通过分析`tests_passed`、`error_type`等字段，可以系统评估不同模型生成代码的功能正确性与鲁棒性，从而推动自动化编程与软件工程智能化研究的发展。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正成为研究热点。autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2数据集应运而生，其名称暗示了与自噬代码（autophagycode）及大语言模型Qwen3-14B的关联，可能聚焦于自动化代码修复或生成任务的性能度量。该数据集通过整合任务标识、可执行性、正确性、测试通过率及多种代码复杂度指标（如Halstead度量和可维护性指数），旨在为代码质量评估提供结构化基准。其创建反映了学术界与工业界对提升代码可靠性、可维护性及自动化编程效率的迫切需求，有望推动智能编程辅助工具的发展，并为代码生成模型的优化与验证提供关键数据支撑。

当前挑战

该数据集面临的挑战主要集中于两个方面。在领域问题层面，代码生成与评估任务本身具有高度复杂性，需平衡代码的功能正确性、执行效率与可维护性，同时应对编程语言多样性、算法逻辑严密性及边缘案例覆盖等难题。构建过程中，挑战包括如何精准定义并量化代码质量指标（如Halstead参数与可维护性指数），确保数据标注的准确性与一致性，以及处理大规模代码样本时的计算资源与时间开销。此外，集成动态测试结果与静态代码度量，并保持数据集的代表性与泛化能力，亦是构建者需克服的关键障碍。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g2数据集为研究者提供了丰富的代码执行与度量特征。该数据集常用于训练和验证机器学习模型，以自动化分析代码的可执行性、正确性及维护性指标。通过整合Halstead复杂度度量与可维护性指数等特征，它支持模型在代码生成、缺陷检测等任务中进行端到端评估，成为代码智能研究中的基准测试资源。

解决学术问题

该数据集致力于解决代码质量量化与自动化评估中的核心学术问题。它通过结构化记录代码执行结果（如测试通过率、错误类型）与静态度量（如Halstead指标），为模型提供了可解释的质量信号。这有助于突破传统手动代码审查的瓶颈，推动基于数据的代码优化、复杂度控制及维护性预测研究，为软件工程领域的实证分析奠定了数据基础。

实际应用

在实际软件开发流程中，该数据集可应用于持续集成与代码审查自动化系统。通过利用其度量特征，开发团队能够构建预警机制，实时识别高复杂度或低可维护性的代码模块，从而提前干预潜在缺陷。此外，它还可用于教育场景，辅助编程学习者分析代码质量，或集成到IDE插件中，为开发者提供即时反馈与改进建议。

数据集最近研究