autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，主要涉及代码分析与软件维护性评估。数据集字段包括任务ID（task_id）、入口点（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试数量（tests_passed/tests_failed）、运行时错误类型（error_type）等直接与代码测试相关的指标。同时包含Halstead复杂度指标（词汇量、长度、体积、难度、工作量）和可维护性指数（maintainability_index）等软件度量数据。所有数据均以结构化形式存储，适用于代码质量评估、缺陷预测或软件维护性分析等任务。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8
存储库地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8

数据集结构与内容

数据格式: 包含多个特征字段的结构化数据。
数据规模:
- 总数据集大小: 18474 字节
- 下载大小: 16704 字节
- 样本数量: 164 个
数据划分: 仅包含一个“train”划分。

特征字段说明

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数量。
tests_failed: 整型，失败的测试数量。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

配置与访问

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8数据集通过系统化流程构建而成。该数据集聚焦于编程任务的自动化评估，其构建过程涉及从特定任务集合中提取代码样本，并利用Qwen3-14B模型在给定学习率与配置下生成代码解决方案。每个样本均经过严格的执行测试与静态分析，记录任务标识、入口点、可执行状态及正确性等核心属性，同时整合了Halstead复杂度指标与可维护性指数等多维度度量，确保数据覆盖代码功能与质量的双重维度。

特点

该数据集展现出鲜明的多维度评估特征，不仅包含代码执行层面的测试通过率、失败次数及错误类型等动态信息，还融入了静态代码分析所得的Halstead度量体系，如词汇量、长度、体积、难度与努力值，以及可维护性指数与函数定义数量等结构化指标。这种动态与静态相结合的设计，使得数据集能够全面反映代码的功能正确性、复杂性与可维护性，为深入分析代码生成模型的性能提供了丰富而细致的观测窗口。

使用方法

研究人员可利用该数据集进行代码生成模型的评估与比较研究。通过加载数据集中的训练分割，用户能够访问包含164个样本的结构化记录，每个样本均标注了任务执行结果与代码质量指标。典型应用场景包括分析模型在不同编程任务上的正确率、错误模式，或探究代码复杂度与可维护性之间的关联。数据集以标准格式存储，支持直接用于机器学习流水线，助力于自动化代码评估、模型优化及软件工程度量领域的实证研究。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量工具的开发对于提升代码可维护性与可靠性至关重要。数据集'autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8'由相关研究团队于近期构建，旨在通过整合Halstead复杂度度量、可维护性指数及函数定义数量等多维特征，系统评估代码片段的执行正确性与结构质量。该数据集聚焦于代码功能测试与静态分析相结合的研究范式，为机器学习模型在代码生成、缺陷检测及优化任务中的训练与验证提供了结构化基准，推动了智能编程辅助工具的发展。

当前挑战

该数据集致力于解决代码质量自动化评估中的核心挑战，即如何精准量化代码的可执行性、正确性与可维护性，并克服传统度量方法在动态行为捕捉上的局限。在构建过程中，研究人员面临多重困难：需确保代码片段的执行环境一致性以避免测试偏差，同时平衡Halstead度量等静态指标与动态测试结果之间的关联性；此外，数据标注依赖于自动化测试框架，其覆盖范围与异常处理的完备性直接影响数据可靠性，而代码特征的提取也需应对语言多样性与结构复杂性带来的技术障碍。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合Halstead复杂度指标与可维护性指数等静态分析特征，为自动化代码评估提供了结构化基准。其经典使用场景聚焦于机器学习模型在代码生成与优化任务中的性能验证，研究者可依据测试通过率、错误类型等字段，系统性地量化模型输出代码的功能正确性与健壮性，从而推动智能编程助手在生成可靠、高效代码方面的技术进步。

解决学术问题

该数据集有效应对了代码生成研究中缺乏标准化评估框架的挑战，通过提供可执行性验证与多维质量指标，解决了模型生成代码的实际运行效果难以客观衡量的学术难题。其意义在于建立了代码功能正确性与静态质量属性的关联分析基础，使得研究者能够深入探究代码复杂度、可维护性与错误模式之间的内在规律，为提升人工智能在软件工程领域的实用性与可信度奠定了数据支撑。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代码生成模型的基准测试与优化方法上。例如，基于其指标体系的研究探索了如何结合执行结果与静态分析以构建更全面的评估标准；同时，也有工作利用该数据集训练模型预测代码可维护性，或改进测试用例生成策略。这些研究共同推动了智能软件工程领域向更可靠、可解释的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集