autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务相关的执行记录与代码复杂度指标，主要字段包括：任务索引(task_index)、入口函数(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试案例数(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)。同时包含Halstead软件复杂度指标（词汇量、长度、体积、难度、工作量）和可维护性指数(maintainability_index)。数据集仅包含训练集(train split)，总大小17.3KB，适用于代码质量分析、自动调试或程序复杂度研究等任务。

创建时间：

2026-03-05

原始信息汇总

数据集概述

基本描述

本数据集包含对代码生成模型在特定任务上生成的代码进行自动化评估的度量结果。

数据集详情

数据集名称: autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4
下载大小: 14,998 字节
数据集大小: 17,346 字节

数据内容与结构

数据规模

训练集样本数量: 164 个
训练集大小: 17,346 字节

特征字段

数据集包含以下特征字段：

任务标识: task_index (int64)
入口点: entry_point (string)
可执行性: is_executable (bool)
正确性: is_correct (bool)
通过测试数: tests_passed (int64)
失败测试数: tests_failed (int64)
测试运行时间: test_run_time_ms (float64)
错误类型: error_type (string)
Halstead词汇量: halstead_vocabulary (int64)
Halstead长度: halstead_length (int64)
Halstead体积: halstead_volume (float64)
Halstead难度: halstead_difficulty (float64)
Halstead工作量: halstead_effort (float64)
可维护性指数: maintainability_index (float64)

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4数据集通过系统化的方法构建而成。其核心流程涉及从特定任务索引出发，利用Qwen3-0.6B-Base模型在unsloth框架下进行4位量化优化，并以0.0001的学习率在第四代生成过程中产出代码条目。每个样本均经过严格的执行测试，记录可执行性、正确性及测试通过情况，同时整合了Halstead软件度量与可维护性指数，从而形成一套覆盖代码功能与质量的多维度评估体系。

使用方法

对于致力于代码生成模型评估与改进的研究者而言，本数据集提供了直接的应用路径。使用者可加载训练分割中的数据，依据任务索引与入口点追溯代码生成上下文，通过分析可执行性、正确性及测试通过率来评估模型的功能性表现。进一步，利用Halstead度量与可维护性指数可深入探究生成代码的结构复杂度与维护难度，从而支撑模型优化、代码质量基准测试或自动化评估管线的构建工作。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量工具的开发对于提升代码可维护性与可靠性至关重要。autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4数据集应运而生，其名称暗示了与自噬代码（autophagy code）及高效微调技术（如unsloth、4位量化）的关联，可能由专注于代码生成与优化研究团队构建。该数据集聚焦于评估代码片段的执行正确性、测试覆盖度及Halstead复杂度等软件度量指标，旨在为代码质量分析与机器学习模型训练提供结构化基准。通过整合任务索引、错误类型及可维护性指数等多维特征，它为解决代码自动化评估中的标准化问题提供了数据支撑，推动了智能编程助手与代码审查工具的发展。

当前挑战

该数据集致力于解决代码质量自动化评估领域的核心挑战，即如何准确量化代码的可执行性、正确性与维护难度。具体而言，其构建过程面临多重困难：在数据收集阶段，需确保代码片段的多样性与代表性，涵盖不同编程范式与错误类型，同时平衡测试用例的覆盖范围与执行效率；在特征工程方面，Halstead度量等复杂度指标的提取依赖于精确的静态分析工具，任何解析偏差可能导致数据噪声。此外，模型训练依赖的微调参数（如学习率与量化配置）需与代码语义紧密结合，以提升评估的泛化能力，这要求数据集在规模有限的情况下仍能保持高信息密度，避免过拟合风险。

常用场景

经典使用场景

在代码生成与评估领域，autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen4数据集被广泛应用于自动化代码质量分析。该数据集通过整合Halstead复杂度指标与可维护性指数，为研究人员提供了量化评估生成代码结构复杂度和可维护性的标准工具。经典使用场景包括训练和验证轻量级语言模型在代码生成任务中的表现，特别是在资源受限环境下，如使用4位量化技术优化模型效率时，该数据集帮助评估模型输出代码的功能正确性与软件工程质量之间的平衡。

解决学术问题

该数据集有效解决了代码生成研究中常见的评估难题，即如何超越简单的功能正确性检查，深入量化代码的结构属性与长期可维护性。通过引入Halstead度量套件和可维护性指数，它使得学术工作能够系统分析生成代码的词汇复杂度、开发难度与维护成本，填补了传统基准仅关注执行通过率的空白。这促进了代码生成领域向更全面、更接近工业标准的评估范式转变，为研究代码质量与模型架构、训练策略之间的关联提供了可靠数据基础。

实际应用

在实际软件开发与自动化工具链中，该数据集支撑了智能代码助手与持续集成系统的质量门控机制。工程团队可依据其度量指标，自动筛查AI生成或开发者提交的代码片段，识别潜在的高复杂度、低可维护性模块，从而提前规避技术债务。例如，在DevOps流程中集成此类评估，能够实现代码审查的初步自动化，提升团队效率并保障软件项目的长期健康度，特别适用于快速迭代的敏捷开发环境与教育资源中编程作业的自动评分。

数据集最近研究