autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码执行和质量分析相关的结构化数据。数据集由164个训练样本组成，总大小为17386字节。每个样本包含多个字段，包括任务索引（task_index）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）等执行相关指标。此外，还包含Halstead复杂度度量（如词汇量halstead_vocabulary、长度halstead_length、体积halstead_volume、难度halstead_difficulty、工作量halstead_effort）和可维护性指数（maintainability_index）等代码质量指标。数据集适用于代码质量评估、程序分析或软件工程研究等任务。

创建时间：

2026-03-05

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3
总数据大小: 17386 字节
下载大小: 14918 字节
数据拆分: 仅包含一个“train”拆分
训练集样本数量: 164 个

数据特征与结构

数据集包含以下字段：

task_index: 任务索引（整数类型）
entry_point: 入口点（字符串类型）
is_executable: 是否可执行（布尔类型）
is_correct: 是否正确（布尔类型）
tests_passed: 通过的测试数量（整数类型）
tests_failed: 失败的测试数量（整数类型）
test_run_time_ms: 测试运行时间（毫秒，浮点数类型）
error_type: 错误类型（字符串类型）
halstead_vocabulary: 哈尔斯特德词汇量（整数类型）
halstead_length: 哈尔斯特德长度（整数类型）
halstead_volume: 哈尔斯特德体积（浮点数类型）
halstead_difficulty: 哈尔斯特德难度（浮点数类型）
halstead_effort: 哈尔斯特德工作量（浮点数类型）
maintainability_index: 可维护性指数（浮点数类型）

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3数据集通过系统化的方法构建而成。其核心流程涉及对特定模型生成的代码样本进行多维度评估，每个样本均关联任务索引与入口点，并执行自动化测试以验证代码的可执行性与正确性。构建过程中，不仅记录了测试通过与否的二元结果，还量化了测试运行时间及错误类型，同时整合了Halstead复杂度指标与可维护性指数，从而形成一套结构化的代码质量评估框架。

特点

该数据集在代码质量分析领域展现出鲜明的特征，其数据结构涵盖了从基础功能验证到深层代码度量的广泛维度。每个条目均包含任务索引、入口点字符串以及布尔型的可执行与正确性标志，辅以通过和失败的测试数量统计。尤为突出的是，它集成了Halstead软件科学度量，如词汇量、长度、体积、难度与工作量，并引入可维护性指数，为代码的复杂度与可维护性提供了量化依据。这种多特征融合的设计，使得数据集能够支持从简单功能检查到复杂代码属性分析的多样化研究需求。

使用方法

对于研究人员而言，该数据集的使用方法聚焦于代码生成模型的性能评估与质量分析。用户可通过加载数据集访问训练分割中的164个样本，每个样本包含完整的评估指标。典型应用包括基于is_executable和is_correct字段进行模型输出可靠性的统计分析，或利用tests_passed与tests_failed评估功能覆盖率。进一步，Halstead度量与maintainability_index可用于探究生成代码的结构复杂度与维护成本，而test_run_time_ms和error_type则有助于分析执行效率与错误模式，从而为模型优化与代码质量提升提供实证基础。

背景与挑战

背景概述

在代码生成与评估领域，自动化工具的性能度量一直是推动智能编程辅助系统发展的核心议题。autophagycode_metrics_D_metrics_he_unsloth__Qwen3-0.6B-Base-unsloth-bnb-4bit_lr0.0001_gen3数据集应运而生，旨在通过量化指标深入分析生成代码的质量与可维护性。该数据集由研究团队基于Qwen3-0.6B模型在特定训练配置下生成，聚焦于代码执行正确性、测试覆盖度及Halstead复杂度等多维特征，为评估轻量级模型在代码生成任务中的实际效能提供了实证基础。其构建不仅反映了当前代码智能领域对可解释性度量的迫切需求，也为优化模型训练策略与提升生成代码的可靠性贡献了关键数据支撑。

当前挑战

该数据集致力于应对代码生成领域的两大核心挑战：一是如何精准评估生成代码的功能正确性与结构质量，传统方法往往依赖单一执行结果，而忽略可维护性、复杂度等长期软件工程指标；二是在构建过程中，需平衡大规模代码样本的自动化测试与人工验证，确保数据标签的准确性，同时处理异构代码环境下的执行一致性问题。此外，集成Halstead度量等静态分析指标时，需克服工具兼容性与计算效率的局限，以构建全面且可复现的评估框架。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合自动化测试结果与Halstead复杂度指标，为代码可执行性、正确性及维护性提供了量化分析框架。其经典使用场景聚焦于机器学习模型在代码生成任务中的性能评测，研究人员可依据测试通过率、错误类型及维护性指数，系统评估模型输出代码的可靠性与效率，从而推动智能编程辅助工具的优化与迭代。

解决学术问题

该数据集有效解决了代码生成研究中缺乏标准化、多维度评估基准的学术难题。通过融合执行测试与静态代码度量，它支持对生成代码的功能正确性、复杂度及可维护性进行综合量化，弥补了传统方法仅关注语法正确性或单一指标的局限。这一贡献促进了代码智能领域评估体系的完善，为模型比较与性能提升提供了可靠依据，加速了自动化编程技术的理论进展。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于度量的代码生成模型优化、自适应测试用例生成框架以及可维护性预测算法。研究者们借鉴其多维指标设计，开发了融合执行反馈的强化学习训练策略，并构建了针对特定错误类型的修复模型。这些工作进一步拓展了代码智能评估的边界，推动了自动化软件工程与AI辅助编程的交叉学科发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集