autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，主要存储与代码执行和分析相关的结构化数据。数据集特征包括：任务标识(task_id)、入口函数(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、测试通过/失败数量(tests_passed/tests_failed)、错误类型(error_type)等执行指标；同时包含代码复杂度度量指标如Halstead词汇量(halstead_vocabulary)、长度(halstead_length)、体积(halstead_volume)、难度(halstead_difficulty)、工作量(halstead_effort)，以及可维护性指数(maintainability_index)和定义函数数量(n_func_defined)等代码质量指标。数据集总大小18,607字节，适用于代码质量分析、程序正确性验证、软件度量研究等任务。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4
下载大小: 16797 字节
数据集大小: 18607 字节

数据内容

数据条目数量: 164 个示例
数据分割: 仅包含一个“train”分割

特征字段

数据集包含以下特征字段：

task_id: 字符串类型，任务标识符。
entry_point: 字符串类型，入口点。
is_executable: 布尔类型，是否可执行。
is_correct: 布尔类型，是否正确。
tests_passed: 整型64位，通过的测试数量。
tests_failed: 整型64位，失败的测试数量。
test_run_time_ms: 空值类型，测试运行时间（毫秒）。
error_type: 字符串类型，错误类型。
halstead_vocabulary: 整型64位，Halstead词汇量。
halstead_length: 整型64位，Halstead长度。
halstead_volume: 浮点64位，Halstead体积。
halstead_difficulty: 浮点64位，Halstead难度。
halstead_effort: 浮点64位，Halstead工作量。
maintainability_index: 浮点64位，可维护性指数。
n_func_defined: 整型64位，定义的函数数量。
entry_point_repeated: 布尔类型，入口点是否重复。

配置信息

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4数据集的构建体现了严谨的实证研究范式。该数据集通过自动化测试框架对模型生成的代码样本进行系统化评估，核心流程涉及任务标识、入口点定义、可执行性验证以及正确性判定。每个样本均经过详尽的测试用例执行，记录通过与失败的数量，并辅以代码复杂度度量，如Halstead指标与可维护性指数，从而构建了一个多维度的代码质量评估基准。

特点

该数据集的特点在于其丰富的元数据与结构化评估维度。它不仅包含代码执行结果的是非判断，还整合了软件工程中的经典度量标准，如词汇量、长度、体积、难度与努力度等Halstead参数，以及可维护性指数和函数定义数量。这些特征共同刻画了代码的静态属性与动态行为，为深入分析代码生成模型的性能提供了细粒度的观察视角，尤其适用于研究代码质量、复杂性与可维护性之间的关联。

使用方法

使用该数据集时，研究者可将其作为基准工具，用于训练或评估代码生成与理解模型。数据集中的任务标识与入口点便于定位具体编程问题，而布尔型与数值型字段支持分类、回归或多任务学习。通过分析测试通过率、错误类型及复杂度指标，能够量化模型输出代码的功能正确性与工程质量。典型应用场景包括模型对比、代码优化策略验证以及自动化软件质量评估框架的开发。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码度量分析已成为提升开发效率与维护性的关键研究方向。autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4数据集应运而生，聚焦于通过量化指标评估代码的结构复杂度与可维护性。该数据集由相关研究团队构建，旨在探索大语言模型在代码生成与优化任务中的性能表现，其核心研究问题涉及如何利用Halstead复杂度度量、可维护性指数等指标，系统性地分析生成代码的缺陷模式与质量特征。这一工作为代码智能辅助工具的开发提供了实证基础，推动了自动化软件测试与质量保障技术的演进。

当前挑战

该数据集致力于应对代码质量自动化评估中的核心挑战，即如何准确量化生成代码的可靠性与可维护性，以解决传统人工代码审查效率低下、主观性强的问题。在构建过程中，研究人员需克服多重困难：一是设计全面且无偏的测试用例集，以覆盖多样化的代码错误类型与边界条件；二是整合复杂的静态分析指标，如Halstead度量与可维护性指数，确保其计算的一致性与可解释性；三是处理大规模代码执行轨迹的数据采集与标注，平衡计算资源消耗与评估精度。这些挑战共同凸显了在动态代码分析中实现标准化度量的复杂性。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4数据集为研究者提供了一个系统性的基准，用于分析和比较代码的复杂性与可维护性。该数据集通过整合Halstead复杂度指标与可维护性指数等特征，支持对代码结构进行量化评估，经典应用场景包括自动化代码审查和缺陷预测模型的训练。研究者可借助该数据集深入探究代码度量与软件质量之间的关联，为优化编程实践提供数据支撑。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于深度学习的代码缺陷预测模型、结合度量指标的自动化重构建议系统，以及跨语言代码质量比较框架。这些工作进一步扩展了数据集的适用性，推动了软件工程与人工智能的交叉融合，为智能软件开发工具链的发展奠定了坚实基础。

数据集最近研究