autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2
收藏Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含164个训练样本,总大小为19.8KB。数据集主要记录编程任务相关的执行结果和代码质量指标。每个样本包含以下特征:任务ID(task_id)、入口函数(entry_point)、可执行状态(is_executable)、正确性标识(is_correct)、通过/失败的测试案例数量(tests_passed/tests_failed)、错误类型(error_type)。此外还包含代码复杂度度量:Halstead指标(词汇量、长度、体积、难度、工作量)、可维护性指数(maintainability_index)、定义函数数量(n_func_defined)以及入口点重复标识(entry_point_repeated)。测试运行时间字段(test_run_time_ms)当前为空值。数据集适用于代码质量分析、自动程序修复等软件工程研究任务。
创建时间:
2026-04-05
原始信息汇总
数据集概述
基本描述
该数据集名为 autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2,是一个用于代码质量评估的数据集,主要包含与代码执行、测试和软件度量相关的特征。
数据集结构
特征字段
- 任务标识:
task_id(字符串类型) - 入口点:
entry_point(字符串类型) - 可执行性:
is_executable(布尔类型) - 正确性:
is_correct(布尔类型) - 通过测试数:
tests_passed(整数类型) - 失败测试数:
tests_failed(整数类型) - 测试运行时间:
test_run_time_ms(空值类型) - 错误类型:
error_type(字符串类型) - Halstead词汇量:
halstead_vocabulary(整数类型) - Halstead长度:
halstead_length(整数类型) - Halstead体积:
halstead_volume(浮点数类型) - Halstead难度:
halstead_difficulty(浮点数类型) - Halstead工作量:
halstead_effort(浮点数类型) - 可维护性指数:
maintainability_index(浮点数类型) - 定义函数数:
n_func_defined(整数类型) - 入口点重复:
entry_point_repeated(布尔类型)
数据划分
- 训练集: 包含164个样本,数据大小为19827字节。
技术规格
- 下载大小: 15821字节
- 数据集大小: 19827字节
- 配置文件: 默认配置 (
default),数据文件路径为data/train-*
搜集汇总
数据集介绍

构建方式
在代码生成与评估领域,autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2数据集的构建体现了严谨的自动化流程。该数据集通过整合特定模型生成的代码样本,并系统性地执行单元测试以验证其功能正确性。每个样本均关联了详尽的静态代码度量指标,如Halstead复杂度与可维护性指数,这些指标的计算基于代码的词汇表、长度及结构特征。构建过程中,代码的可执行状态、测试通过率以及错误类型均被精确记录,确保了数据在质量评估维度上的全面性与可靠性。
特点
该数据集的核心特征在于其多维度的代码质量评估体系。它不仅提供了代码执行正确性的二元判断,还囊括了测试通过与失败的具体数量,为性能分析提供了量化基础。更为突出的是,数据集集成了Halstead软件科学度量,包括词汇量、长度、体积、难度与工作量,这些指标深刻反映了代码的内在复杂度与开发效率。同时,可维护性指数与函数定义数量等结构化特征,进一步揭示了代码的长期维护潜力与设计质量,为研究者提供了从功能到非功能属性的综合视角。
使用方法
在代码智能研究与应用中,该数据集的使用方法聚焦于模型训练与评估。研究者可直接加载数据集中的训练分割,利用任务标识、入口点及测试结果等字段,构建代码生成或修复模型的监督学习任务。静态度量指标如Halstead参数与可维护性指数,可作为特征输入用于预测代码质量或优化生成策略。通过分析错误类型与测试运行状态,用户能够深入诊断模型在特定编程场景下的薄弱环节,从而指导后续的模型调优与泛化能力提升。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码生成与评估已成为推动自动化编程发展的核心议题。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2数据集应运而生,其创建旨在系统性地量化与分析由大语言模型生成的代码质量与执行效能。该数据集聚焦于代码的静态度量指标,如Halstead复杂度与可维护性指数,为研究模型生成代码的结构化特性与可靠性提供了标准化基准。通过集成任务标识、可执行性验证及测试通过率等多维度特征,它不仅深化了对生成代码功能正确性的理解,更拓展了代码质量评估的实证研究范畴,为智能编程辅助工具的优化奠定了数据基础。
当前挑战
该数据集所应对的领域挑战在于,如何精准评估大语言模型生成代码的语义一致性与结构稳健性,超越传统语法正确性检验,深入揭示代码在复杂执行环境中的潜在缺陷。构建过程中的挑战则体现为多维度度量指标的融合与标准化,需平衡Halstead复杂度等静态分析与动态测试结果之间的关联,同时确保数据条目在任务标识、错误类型分类等方面的标注一致性与可复现性,以支撑可靠的质量对比分析。
常用场景
经典使用场景
在软件工程与代码质量评估领域,autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2数据集为研究者提供了一个系统性的基准,用于分析代码的可执行性、正确性及维护性指标。该数据集通过整合Halstead复杂度度量与可维护性指数等特征,支持对自动化生成的代码片段进行多维度的性能评估,尤其在代码生成模型的输出验证与优化过程中,成为评估模型生成代码功能完整性与质量的关键工具。
衍生相关工作
围绕该数据集,学术界衍生了一系列关于代码生成评估与质量优化的经典研究。例如,基于其提供的复杂度与可维护性指标,研究者开发了新型的代码生成模型微调策略,以提升生成代码的结构质量;同时,该数据集也促进了代码缺陷预测与自动化修复方法的发展,为软件工程中的智能辅助工具设计提供了重要参考。
数据集最近研究
最新研究方向
在代码生成与评估领域,autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_sem_g2数据集聚焦于大语言模型生成代码的质量度量研究。该数据集整合了Halstead复杂度指标与可维护性指数等传统软件工程度量,结合执行测试结果,为评估生成代码的功能正确性与结构特性提供了多维基准。前沿探索方向包括利用此类指标优化模型微调策略,提升代码生成在语义一致性和可维护性方面的表现,同时推动自动化代码评估向更精细化、可解释的方向发展,对软件工程智能化进程具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



