autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务的评估结果，主要记录代码分析指标和执行测试数据。数据结构包含16个特征字段：任务ID（task_id）、入口函数（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试用例数（tests_passed/tests_failed）、运行时（test_run_time_ms）、错误类型（error_type）等。特别包含代码复杂度指标：Halstead词汇量/长度/体积/难度/工作量（halstead_*）、可维护性指数（maintainability_index）、函数定义数量（n_func_defined）等。所有数据均存储在train拆分中，总大小18.7KB，适用于代码质量分析、自动程序修复等研究场景。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2
数据量: 164 个样本
数据集大小: 18702 字节
下载大小: 16620 字节

数据结构

数据集包含一个名为 train 的分割，包含以下特征字段：

task_id (字符串): 任务标识符。
entry_point (字符串): 入口点。
is_executable (布尔值): 是否可执行。
is_correct (布尔值): 是否正确。
tests_passed (整型): 通过的测试数量。
tests_failed (整型): 失败的测试数量。
test_run_time_ms (空值): 测试运行时间（毫秒）。
error_type (字符串): 错误类型。
halstead_vocabulary (整型): 哈尔斯特德词汇量。
halstead_length (整型): 哈尔斯特德长度。
halstead_volume (浮点型): 哈尔斯特德体积。
halstead_difficulty (浮点型): 哈尔斯特德难度。
halstead_effort (浮点型): 哈尔斯特德工作量。
maintainability_index (浮点型): 可维护性指数。
n_func_defined (整型): 定义的函数数量。
entry_point_repeated (布尔值): 入口点是否重复。

配置与访问

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2数据集的构建体现了严谨的自动化流程。该数据集通过特定的大语言模型配置（Qwen3-14B，学习率为0.0001）生成代码解决方案，并系统性地执行了多维度评估。构建过程的核心在于对每个任务（task_id）生成的代码进行功能测试，精确记录其可执行性（is_executable）、正确性（is_correct）以及通过和失败的测试用例数量（tests_passed, tests_failed）。同时，构建框架集成了代码复杂度分析，自动计算了包括Halstead度量（如词汇量、长度、体积、难度、工作量）和可维护性指数在内的静态质量指标，从而将代码的功能属性与结构属性有机结合，形成了一个包含164个样本的训练集。

特点

该数据集的显著特点在于其多维、量化的评估体系。它不仅关注代码的功能正确性这一传统核心指标，还深度融合了软件工程领域的经典静态分析度量。数据集中的每条记录都包含了从执行结果（如错误类型error_type）到代码内在复杂性（如halstead_volume, halstead_difficulty）的丰富特征。这种设计使得数据集超越了简单的对错判断，能够支撑对生成代码的可靠性、可维护性以及实现难度进行综合量化研究。特征字段如entry_point_repeated和n_func_defined进一步揭示了代码的结构模式，为分析模型生成的代码风格与重复性问题提供了直接依据。

使用方法

研究人员可利用该数据集进行代码生成模型的综合性能评估与对比分析。数据集的标准格式便于直接加载至数据分析框架中。典型的使用路径是，首先基于is_correct和tests_passed等字段评估模型的功能准确性；进而，结合halstead_effort、maintainability_index等复杂度指标，深入分析模型所生成代码的质量与可维护性，探究功能正确性与代码优雅度之间的关联。该数据集也可用于训练或验证能够预测代码质量或错误类型的元模型，推动代码生成技术向产出更健壮、更易维护代码的方向发展。在使用时，需注意其数据来源于特定模型配置下的生成结果，结论的泛化需考虑这一上下文。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量分析已成为提升程序可维护性与可靠性的关键技术。数据集autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g2由相关研究团队构建，旨在通过整合Halstead复杂度度量、可维护性指数及功能定义数量等多元特征，系统评估代码的结构属性与执行效能。该数据集聚焦于代码生成与优化任务，通过量化指标深入解析代码的复杂度、可读性及错误倾向，为智能编程辅助工具与自动化测试系统的开发提供了实证基础，推动了软件工程中代码质量智能评估方法的发展。

当前挑战

该数据集致力于解决代码质量自动化评估中的核心挑战，即如何精准量化代码的复杂度与可维护性，并关联其与执行正确性之间的内在关系。构建过程中，挑战主要体现在多维度度量指标的融合与标准化处理，例如Halstead度量与可维护性指数的计算需确保一致性，同时需处理代码执行结果与静态特征之间的对齐问题。此外，数据采集需平衡代码样本的多样性与质量，避免偏差影响模型训练的泛化能力，这对数据清洗与标注流程提出了较高要求。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合Halstead复杂度指标与可维护性指数等特征，为自动化代码分析提供了标准化的基准。其经典使用场景聚焦于评估机器学习模型生成的代码片段在功能正确性、执行效率及结构复杂性方面的表现，常用于训练和验证代码生成或修复模型，以提升生成代码的可靠性与可维护性。

解决学术问题

该数据集有效解决了代码生成研究中常见的评估难题，如量化代码的复杂度与可维护性，并提供了基于测试通过率与错误类型的细粒度性能指标。其意义在于为学术界提供了统一的评估框架，促进了代码质量自动评估方法的发展，对推动智能编程助手与自动化软件测试技术的进步具有重要影响。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于复杂度指标的代码缺陷预测模型、结合测试覆盖率的自适应代码生成系统，以及利用可维护性指数优化代码重构的算法。这些工作进一步拓展了自动化代码评估的应用边界，为软件工程智能化提供了坚实的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集