autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小21KB，记录了编程任务相关的执行指标与代码复杂度数据。数据结构包含16个字段：任务ID(task_id)、入口函数(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试案例数(tests_passed/tests_failed)、测试运行时间(test_run_time_ms)、错误类型(error_type)、Halstead复杂度指标（词汇量/长度/体积/难度/工作量）、可维护性指数(maintainability_index)、定义函数数量(n_func_defined)及入口点重复标记(entry_point_repeated)。适用于代码质量分析、自动调试或编程教育评估等场景。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5
数据集大小: 19656 字节
下载大小: 16633 字节

数据内容与结构

数据条目数量: 164 个示例
数据分割: 仅包含一个“train”分割
特征字段:
- task_id: 字符串类型，任务标识符。
- entry_point: 字符串类型，入口点。
- is_executable: 布尔类型，表示是否可执行。
- is_correct: 布尔类型，表示是否正确。
- tests_passed: 整型，通过的测试数量。
- tests_failed: 整型，失败的测试数量。
- test_run_time_ms: 空值类型，测试运行时间（毫秒）。
- error_type: 字符串类型，错误类型。
- halstead_vocabulary: 整型，Halstead 词汇量。
- halstead_length: 整型，Halstead 长度。
- halstead_volume: 浮点型，Halstead 体积。
- halstead_difficulty: 浮点型，Halstead 难度。
- halstead_effort: 浮点型，Halstead 工作量。
- maintainability_index: 浮点型，可维护性指数。
- n_func_defined: 整型，定义的函数数量。
- entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5数据集通过系统化的方法构建而成。其核心流程涉及利用Qwen3-0.6B模型在特定学习率与训练配置下生成代码样本，随后对这些样本进行多维度自动化评估。评估指标不仅涵盖代码的功能正确性，如通过测试用例的数量与执行状态，还深入量化代码的复杂度与可维护性，例如Halstead度量与可维护性指数，从而形成结构化的数据记录。

使用方法

针对研究与实践应用，该数据集的使用方法聚焦于代码生成模型的性能评估与质量分析。用户可基于任务标识与入口点字段定位特定代码样本，结合可执行性、正确性及测试通过率等指标直接评估功能可靠性。进一步，通过解析Halstead度量与可维护性指数，研究者能够量化代码的复杂度与维护难度，从而支撑模型优化、代码质量基准测试或软件工程领域的实证研究。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正逐步成为研究热点。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5数据集应运而生，其创建旨在系统评估基于大型语言模型的代码生成质量与可维护性。该数据集由相关研究团队构建，聚焦于通过量化指标如Halstead复杂度与可维护性指数，深入分析生成代码的结构特性与功能正确性，为自动化代码优化与智能编程辅助提供关键数据支撑，推动了代码智能领域的实证研究进展。

当前挑战

该数据集致力于应对代码生成领域中生成代码的质量评估与可维护性量化这一核心挑战，具体包括如何准确衡量代码的复杂度与错误倾向，以及确保生成代码的功能正确性。在构建过程中，挑战主要源于代码执行环境的可靠复现、测试用例的全面覆盖，以及复杂度指标的计算一致性，这些因素均对数据集的准确性与泛化能力构成考验。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5数据集为研究者提供了一个系统化的基准，用于分析代码的可执行性、正确性及维护性指标。该数据集通过整合Halstead复杂度度量、可维护性指数及测试通过率等特征，支持对自动化生成或人工编写代码的全面评估。经典使用场景包括训练和验证代码质量预测模型，帮助识别代码中的潜在缺陷，优化软件开发流程中的质量控制环节。

解决学术问题

该数据集有效解决了代码质量量化评估中的若干关键学术问题，如如何客观衡量代码的复杂性与可维护性，以及如何关联代码静态属性与动态执行结果。通过提供丰富的度量指标与测试结果，它促进了软件度量学与机器学习交叉领域的研究，使得研究者能够深入探究代码特征与错误模式之间的关联，为自动化代码审查和智能编程辅助工具的发展奠定数据基础。

实际应用

在实际应用中，该数据集可被集成到持续集成与持续部署（CI/CD）管道中，用于实时监控代码库的质量变化。开发团队能够利用其度量指标预警代码退化风险，辅助进行代码重构决策。此外，在教育场景中，它可作为编程课程的教学工具，帮助学生直观理解高质量代码的特征，提升其软件工程实践能力。

数据集最近研究