autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为18,670字节，记录了代码任务的执行与分析结果。数据集包含16个结构化字段：基础标识字段（task_id, entry_point）、执行状态字段（is_executable, is_correct, tests_passed/failed）、性能指标（test_run_time_ms, error_type）、代码复杂度指标（halstead_vocabulary/length/volume/difficulty/effort）以及可维护性指标（maintainability_index, n_func_defined）。数据适用于代码质量分析、自动测试验证和软件复杂度评估等任务，特别适合研究代码正确性与软件度量指标的关系。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3
总大小: 18670 字节
下载大小: 16575 字节

数据内容与结构

数据条目数: 164 个示例
数据分割: 仅包含一个 "train" 分割
数据文件: data/train-*

特征字段

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型，通过的测试数。
tests_failed: 整型，失败的测试数。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型，Halstead 词汇量。
halstead_length: 整型，Halstead 长度。
halstead_volume: 浮点型，Halstead 体积。
halstead_difficulty: 浮点型，Halstead 难度。
halstead_effort: 浮点型，Halstead 工作量。
maintainability_index: 浮点型，可维护性指数。
n_func_defined: 整型，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

搜集汇总

数据集介绍

构建方式

在计算生物学与代码生成交叉领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3数据集的构建体现了严谨的自动化评估流程。该数据集通过系统性地执行特定任务代码，并采集多维度的静态与动态指标而生成。其构建过程整合了代码可执行性验证、测试用例通过率统计以及Halstead软件科学度量等复杂分析，确保了每个数据条目均包含从任务标识到代码维护性指数的完整特征向量，为后续的模型性能分析提供了结构化基础。

特点

该数据集的核心特点在于其融合了代码功能正确性评估与软件工程度量学的双重维度。它不仅记录了代码是否通过测试用例的二元结果，还深入量化了代码的复杂度、可维护性以及开发工作量，例如通过Halstead难度、体积与努力度等指标进行刻画。这种将动态执行结果与静态代码属性相结合的设计，使得数据集能够支持对代码生成模型输出质量进行更为细致和全面的评估，尤其适用于分析模型在特定领域任务中的稳健性与代码优化潜力。

使用方法

使用本数据集时，研究者可将其作为基准评估工具，用于分析或比较不同代码生成模型在特定任务上的表现。数据集中的‘task_id’、‘entry_point’等字段可用于定位具体编程问题，而‘is_correct’、‘tests_passed’及各类Halstead度量指标则可直接作为模型输出代码的功能正确性、效率与代码质量的量化评价依据。通过加载该数据集，用户能够便捷地进行统计分析、可视化或作为训练验证集的一部分，以推动代码生成技术在计算生物学等专业领域的应用与发展。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估技术正经历深刻变革。数据集'autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_sem_g3'应运而生，聚焦于自动化代码质量度量与功能正确性验证的前沿探索。该数据集由研究团队基于Qwen3-14B模型在特定学习率与语义生成配置下构建，旨在系统分析代码的可执行性、测试通过率及多项Halstead复杂度指标，为智能编程辅助系统提供精细化评估基准。其创建反映了当前学术界对代码生成模型输出稳定性与可维护性量化分析的迫切需求，推动了编程智能化向可靠、高效方向演进。

当前挑战

该数据集致力于解决代码生成模型中输出代码的功能正确性与质量评估难题，其核心挑战在于如何精准量化生成代码的语义一致性与结构合理性。在构建过程中，研究者需克服多维度度量指标的统一整合难题，如Halstead复杂度与可维护性指数的平衡计算，同时确保测试用例对代码功能覆盖的完备性。此外，模型生成代码的可执行性验证与错误类型分类需要高度自动化的流水线支持，这对数据收集与标注流程的鲁棒性提出了严峻考验。

常用场景

经典使用场景

在软件工程与代码质量评估领域，该数据集通过整合Halstead复杂度指标与可维护性指数等特征，为自动化代码分析提供了标准化基准。研究人员常利用其评估大型语言模型生成的代码在功能正确性、执行效率及结构复杂度方面的表现，从而推动智能编程辅助工具的优化与验证。

衍生相关工作

围绕该数据集衍生的经典工作包括基于复杂度指标的代码缺陷预测模型、结合测试覆盖率的生成代码优化方法，以及跨语言代码质量迁移学习框架。这些研究进一步拓展了自动化软件质量保障的边界，为智能开发工具的演进提供了理论支撑与实践案例。

数据集最近研究