autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
收藏Hugging Face2026-03-06 更新2026-03-07 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含164个训练样本,总大小为16,570字节,下载大小为14,964字节。数据集特征包括任务索引(task_index)、入口点(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试数量(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)以及一系列代码复杂度指标(包括Halstead词汇量、长度、体积、难度、工作量度量和可维护性指数)。数据集仅提供训练集(train)拆分,数据文件路径为data/train-*。适用于代码分析、程序正确性验证或软件质量评估相关任务。
创建时间:
2026-03-02
原始信息汇总
数据集概述
基本信息
- 数据集名称: autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
- 来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1
- 数据集大小: 16,570 字节
- 下载大小: 14,964 字节
数据内容与结构
- 数据条目数量: 164 个示例
- 数据分割: 仅包含一个“train”分割
- 数据文件:
data/train-*
特征字段说明
- task_index: 任务索引(int64)
- entry_point: 入口点(string)
- is_executable: 是否可执行(bool)
- is_correct: 是否正确(bool)
- tests_passed: 通过的测试数量(int64)
- tests_failed: 失败的测试数量(int64)
- test_run_time_ms: 测试运行时间(毫秒),类型为null
- error_type: 错误类型(string)
- halstead_vocabulary: 哈尔斯特德词汇量(int64)
- halstead_length: 哈尔斯特德长度(int64)
- halstead_volume: 哈尔斯特德体积(float64)
- halstead_difficulty: 哈尔斯特德难度(float64)
- halstead_effort: 哈尔斯特德工作量(float64)
- maintainability_index: 可维护性指数(float64)
搜集汇总
数据集介绍
构建方式
在代码质量评估与自动化测试领域,autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1数据集的构建体现了严谨的工程化流程。该数据集通过整合多个维度的代码度量指标与执行测试结果,系统性地收集了164个训练样本。每个样本均包含任务索引、入口点、可执行性验证、正确性判断以及通过和失败的测试数量,同时融入了Halstead复杂度度量与可维护性指数,确保了数据在静态分析与动态测试层面的双重覆盖。
特点
该数据集的核心特点在于其多维度的代码质量表征能力。它不仅记录了代码的执行结果与测试通过率,还深入量化了代码的静态属性,如Halstead词汇量、长度、体积、难度与努力度,并辅以可维护性指数,从而全面刻画代码的结构复杂性与可维护性。这种结合动态测试反馈与静态度量分析的设计,为研究代码生成、优化与质量评估提供了丰富而精细的特征空间。
使用方法
在机器学习驱动的代码智能研究中,该数据集适用于训练与评估模型在代码质量预测、缺陷检测或自动化测试生成等任务上的性能。使用者可加载train分割,利用任务索引与入口点定位代码上下文,结合is_correct、tests_passed等字段评估模型输出代码的功能正确性,同时借助Halstead度量与可维护性指数进行代码复杂度的回归或分类分析,为模型优化提供可解释的量化依据。
背景与挑战
背景概述
在软件工程与代码质量评估领域,自动化度量工具的开发对于提升代码可维护性与可靠性至关重要。数据集'autophagycode_metrics_D_metrics_he_unsloth__Qwen3-14B-Base-unsloth-bnb-4bit_lr0.0001_gen1'应运而生,其创建旨在通过集成Halstead复杂度度量与可维护性指数等指标,系统评估代码执行正确性、测试覆盖率及结构特征。该数据集由研究团队基于先进的大语言模型Qwen3-14B进行生成与标注,聚焦于量化代码质量与自动化测试结果之间的关联,为智能代码审查与优化提供了关键数据支撑。
当前挑战
该数据集致力于解决代码质量自动化评估中的核心挑战,即如何精准量化代码复杂度、可维护性与功能正确性之间的多维关系。构建过程中面临的主要困难包括:确保生成代码样本的多样性与代表性,以覆盖不同编程范式与错误类型;整合Halstead度量等传统指标与大语言模型输出,需克服数据对齐与标准化难题;同时,验证代码执行结果与测试通过率的可靠性,对测试环境的稳定性与度量一致性提出了较高要求。
常用场景
经典使用场景
在代码质量评估与自动化测试领域,该数据集通过整合Halstead复杂度指标与可维护性指数,为程序代码的静态分析提供了标准化基准。研究者利用其丰富的特征维度,如任务索引、执行状态及测试通过率,能够系统性地评估代码的健壮性与效率,尤其在机器学习模型生成的代码验证场景中,它成为衡量代码功能正确性与结构复杂度的关键工具。
实际应用
在实际软件开发流程中,该数据集可集成于持续集成与部署管道,用于自动化测试生成的代码片段,提升代码审查效率。企业能够借助其指标系统监控代码库的健康度,优化维护成本,同时在教育领域辅助编程教学,通过量化反馈帮助学生理解代码质量与复杂度的平衡关系。
衍生相关工作
围绕该数据集衍生的经典工作包括基于Halstead指标的代码缺陷预测模型,以及结合可维护性指数的自动化重构建议系统。这些研究进一步拓展了代码质量评估的边界,例如将复杂度度量与机器学习结合,开发出更精准的代码生成评估算法,为后续智能编程助手等应用奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



