autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen10

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小17,564字节，主要记录编程任务相关的技术指标。数据结构包含14个特征字段：任务索引(task_index)、入口点(entry_point)、可执行状态(is_executable)、正确性(is_correct)、通过/失败的测试案例数(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)等基础字段，以及Halstead复杂度指标（词汇量、长度、体积、难度、工作量）和可维护性指数(maintainability_index)。数据适用于代码质量分析、程序复杂度评估、自动化测试验证等软件工程研究场景。

This dataset contains 164 training samples with a total size of 17,564 bytes, primarily documenting technical metrics associated with programming tasks. The dataset's structure encompasses 14 feature fields: basic fields including task index (task_index), entry point (entry_point), executable status (is_executable), correctness (is_correct), number of passed/failed test cases (tests_passed/tests_failed), test run time (test_run_time_ms), error type (error_type), as well as Halstead complexity metrics (vocabulary, length, volume, difficulty, and effort) and maintainability index (maintainability_index). This dataset is applicable to software engineering research scenarios such as code quality analysis, program complexity evaluation, and automated test validation.

创建时间：

2026-03-08

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen10数据集的构建体现了系统化工程思维。该数据集通过自动化流程生成，以任务索引和入口点为基础，对代码样本进行可执行性与正确性验证，并记录测试通过与失败的数量。同时，它整合了Halstead复杂度指标与可维护性指数，从静态分析角度量化代码质量，形成了一套涵盖功能测试与结构度量的多维评估框架。

使用方法

研究人员可利用该数据集进行代码生成模型的性能评估与比较分析。通过加载训练分割中的样本，可以分析任务索引对应的代码生成结果，结合可执行性、正确性及测试通过率评估功能可靠性。进一步，利用Halstead度量与可维护性指数，能够深入探究生成代码的结构复杂性与维护成本。该数据集适用于构建自动化评估流水线，为模型优化提供基于实证的量化反馈，推动代码生成技术向更高可靠性与可维护性方向发展。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与质量评估日益成为研究焦点。autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen10数据集应运而生，其创建旨在系统评估基于大型语言模型的代码生成性能。该数据集由相关研究团队构建，核心研究问题聚焦于量化生成代码的功能正确性、执行效率及软件维护性指标，通过整合自动化测试结果与Halstead复杂度度量，为模型优化与基准测试提供实证基础。其出现推动了代码智能领域从单纯功能实现向综合质量分析的范式转变，对提升生成代码的可靠性与可维护性具有显著影响力。

当前挑战

该数据集致力于应对代码生成领域的关键挑战：如何准确、全面地评估生成代码的质量，超越传统仅关注功能正确性的局限。具体而言，挑战体现在两方面：在领域问题层面，需平衡代码的执行正确性、运行时性能与长期维护成本之间的复杂权衡，例如同时优化测试通过率与Halstead维护性指数；在构建过程中，挑战涉及自动化测试框架的可靠集成、多维度度量指标（如词汇量、难度、工作量）的标准化计算，以及确保大规模生成代码样本在有限计算资源下的高效评估与标注，这些因素共同构成了数据集构建与应用的实质性难点。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合自动化测试结果与Halstead复杂度指标，为代码可执行性、正确性及维护性提供了量化基准。其经典使用场景聚焦于机器学习模型在代码生成任务中的性能评估，研究者可依据测试通过率、错误类型及维护性指数，系统分析模型输出代码的可靠性与效率，从而优化训练策略与模型架构。

解决学术问题

该数据集有效解决了代码生成研究中缺乏标准化评估框架的学术难题。通过提供多维度的代码质量指标，如Halstead复杂度与维护性指数，它支持对生成代码的可读性、可维护性及执行稳定性进行实证分析。这促进了代码智能领域从单纯功能正确性向综合质量评估的范式转变，为模型比较与理论验证提供了可靠数据基础。

实际应用

在实际应用中，该数据集可服务于自动化代码审查与智能编程助手系统的开发。工程团队能够利用其指标数据，快速筛选出潜在的高风险代码片段，或训练模型以生成更健壮、易维护的代码。此外，在教育培训场景中，它可作为学习工具，帮助开发者直观理解代码复杂度与质量之间的关系，提升编程实践水平。

数据集最近研究