autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为16,570字节，下载大小为14,964字节。数据集特征包括任务索引（task_index）、入口点（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试数量（tests_passed/tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）以及一系列代码复杂度指标（包括Halstead词汇量、长度、体积、难度、工作量度量和可维护性指数）。数据集仅提供训练集（train）拆分，数据文件路径为data/train-*。适用于代码分析、程序正确性验证或软件质量评估相关任务。

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
数据集大小: 16,570 字节
下载大小: 14,964 字节

数据内容与结构

数据条目数量: 164 个示例
数据分割: 仅包含一个“train”分割
数据文件: data/train-*

特征字段说明

task_index: 任务索引（int64）
entry_point: 入口点（string）
is_executable: 是否可执行（bool）
is_correct: 是否正确（bool）
tests_passed: 通过的测试数量（int64）
tests_failed: 失败的测试数量（int64）
test_run_time_ms: 测试运行时间（毫秒），类型为null
error_type: 错误类型（string）
halstead_vocabulary: 哈尔斯特德词汇量（int64）
halstead_length: 哈尔斯特德长度（int64）
halstead_volume: 哈尔斯特德体积（float64）
halstead_difficulty: 哈尔斯特德难度（float64）
halstead_effort: 哈尔斯特德工作量（float64）
maintainability_index: 可维护性指数（float64）

搜集汇总

数据集介绍

构建方式

在代码质量评估与自动化测试领域，autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1数据集的构建体现了严谨的工程化流程。该数据集通过整合多个维度的代码度量指标与执行测试结果，系统性地收集了164个训练样本。每个样本均包含任务索引、入口点、可执行性验证、正确性判断以及通过和失败的测试数量，同时融入了Halstead复杂度度量与可维护性指数，确保了数据在静态分析与动态测试层面的双重覆盖。

特点

该数据集的核心特点在于其多维度的代码质量表征能力。它不仅记录了代码的执行结果与测试通过率，还深入量化了代码的静态属性，如Halstead词汇量、长度、体积、难度与努力度，并辅以可维护性指数，从而全面刻画代码的结构复杂性与可维护性。这种结合动态测试反馈与静态度量分析的设计，为研究代码生成、优化与质量评估提供了丰富而精细的特征空间。

使用方法

在机器学习驱动的代码智能研究中，该数据集适用于训练与评估模型在代码质量预测、缺陷检测或自动化测试生成等任务上的性能。使用者可加载train分割，利用任务索引与入口点定位代码上下文，结合is_correct、tests_passed等字段评估模型输出代码的功能正确性，同时借助Halstead度量与可维护性指数进行代码复杂度的回归或分类分析，为模型优化提供可解释的量化依据。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量工具的开发对于提升代码可维护性与可靠性至关重要。数据集'autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1'应运而生，其创建旨在通过集成Halstead复杂度度量与可维护性指数等指标，系统评估代码执行正确性、测试覆盖率及结构特征。该数据集由研究团队基于先进的大语言模型Qwen3-14B进行生成与标注，聚焦于量化代码质量与自动化测试结果之间的关联，为智能代码审查与优化提供了关键数据支撑。

当前挑战

该数据集致力于解决代码质量自动化评估中的核心挑战，即如何精准量化代码复杂度、可维护性与功能正确性之间的多维关系。构建过程中面临的主要困难包括：确保生成代码样本的多样性与代表性，以覆盖不同编程范式与错误类型；整合Halstead度量等传统指标与大语言模型输出，需克服数据对齐与标准化难题；同时，验证代码执行结果与测试通过率的可靠性，对测试环境的稳定性与度量一致性提出了较高要求。

常用场景

经典使用场景

在代码质量评估与自动化测试领域，该数据集通过整合Halstead复杂度指标与可维护性指数，为程序代码的静态分析提供了标准化基准。研究者利用其丰富的特征维度，如任务索引、执行状态及测试通过率，能够系统性地评估代码的健壮性与效率，尤其在机器学习模型生成的代码验证场景中，它成为衡量代码功能正确性与结构复杂度的关键工具。

实际应用

在实际软件开发流程中，该数据集可集成于持续集成与部署管道，用于自动化测试生成的代码片段，提升代码审查效率。企业能够借助其指标系统监控代码库的健康度，优化维护成本，同时在教育领域辅助编程教学，通过量化反馈帮助学生理解代码质量与复杂度的平衡关系。

衍生相关工作

围绕该数据集衍生的经典工作包括基于Halstead指标的代码缺陷预测模型，以及结合可维护性指数的自动化重构建议系统。这些研究进一步拓展了代码质量评估的边界，例如将复杂度度量与机器学习结合，开发出更精准的代码生成评估算法，为后续智能编程助手等应用奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集