autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个编程任务的评估数据，主要记录代码执行结果与软件复杂度指标。数据结构包含16个字段：任务标识符(task_id)、入口函数(entry_point)、可执行状态(is_executable)、正确性标记(is_correct)、通过/失败的测试用例数(tests_passed/tests_failed)、错误类型(error_type)等执行信息，以及Halstead复杂度指标（词汇量、长度、体积、难度、工作量）、可维护性指数(maintainability_index)和定义函数数(n_func_defined)等静态分析指标。所有数据均存在于train拆分中，总大小18.6KB。适用于代码质量评估、缺陷预测或编程教育领域的研究。

创建时间：

2026-04-17

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2
存储库地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2
下载大小: 16892 字节
数据集大小: 18637 字节

数据内容与结构

数据总量: 164 个样本
数据划分: 仅包含一个 train 划分，包含 164 个样本，大小为 18637 字节。

特征字段说明

数据集包含以下特征字段：

task_id: 任务标识符，字符串类型。
entry_point: 入口点，字符串类型。
is_executable: 是否可执行，布尔类型。
is_correct: 是否正确，布尔类型。
tests_passed: 通过的测试数量，64位整数类型。
tests_failed: 失败的测试数量，64位整数类型。
test_run_time_ms: 测试运行时间（毫秒），空值类型。
error_type: 错误类型，字符串类型。
halstead_vocabulary: Halstead 词汇量，64位整数类型。
halstead_length: Halstead 长度，64位整数类型。
halstead_volume: Halstead 体积，64位浮点数类型。
halstead_difficulty: Halstead 难度，64位浮点数类型。
halstead_effort: Halstead 工作量，64位浮点数类型。
maintainability_index: 可维护性指数，64位浮点数类型。
n_func_defined: 定义的函数数量，64位整数类型。
entry_point_repeated: 入口点是否重复，布尔类型。

数据文件配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与质量评估领域，autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2数据集通过系统化的方法构建而成。该数据集基于特定任务标识符（task_id）和入口点（entry_point）组织代码样本，并利用自动化测试框架验证代码的可执行性（is_executable）与正确性（is_correct）。每个样本均记录了测试通过（tests_passed）与失败（tests_failed）的详细数量，同时整合了Halstead复杂度指标（如词汇量、长度、体积、难度与努力度）以及可维护性指数（maintainability_index）等多维度代码度量数据，从而形成一套结构化的评估基准。

特点

该数据集展现出鲜明的技术特征，其核心在于融合了功能验证与代码质量度量双重维度。除了基本的可执行性与正确性标注外，数据集提供了丰富的静态分析指标，包括Halstead复杂度系列参数和可维护性指数，这些指标能够客观反映代码的结构复杂性与维护难度。此外，数据集中还包含了函数定义数量（n_func_defined）及入口点重复性（entry_point_repeated）等元信息，为深入分析代码模式与潜在缺陷提供了细致的数据支撑。

使用方法

在应用层面，该数据集适用于代码生成模型的训练与评估，以及软件工程领域的质量分析研究。使用者可通过加载数据集中的训练分割（train split），访问各样本的任务标识符、入口点及度量特征，进而构建预测或分类模型。例如，利用Halstead指标与可维护性指数可训练模型预测代码缺陷或评估生成代码的质量；同时，结合测试通过率与错误类型（error_type）数据，能够对代码的鲁棒性与功能性进行系统化验证，为自动化代码审查与优化提供实证基础。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化度量代码复杂度与可维护性一直是提升开发效率的关键研究方向。autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2数据集应运而生，其创建旨在通过整合Halstead复杂度指标与可维护性指数等量化特征，系统评估代码执行正确性与结构质量。该数据集由相关研究团队构建，聚焦于代码生成与测试验证的交叉问题，通过分析任务执行结果与静态度量数据，为智能编程辅助系统提供细粒度评估基准，推动代码自动化分析与优化技术的发展。

当前挑战

该数据集核心挑战在于如何精准量化代码功能正确性与结构复杂性之间的关联，这要求解决动态测试结果与静态度量指标的多维度对齐问题，以克服传统评估方法在泛化性与解释性上的局限。构建过程中，数据采集需协调代码执行环境的一致性，确保测试用例的覆盖度与可靠性，同时处理大规模代码样本的度量计算与错误类型标注，这些技术环节对数据质量与完整性构成了显著挑战。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g2数据集为研究人员提供了一个系统性的基准，用于分析和比较代码的复杂性与可维护性。该数据集通过整合Halstead复杂度指标与可维护性指数等特征，支持对代码结构进行量化评估，常用于自动化代码审查、缺陷预测以及编程教育中的代码质量反馈系统。其经典应用场景包括训练机器学习模型以识别代码中的潜在问题，或作为基准测试工具验证新型代码质量度量方法的有效性。

解决学术问题

该数据集有效解决了软件工程中代码质量度量标准化不足的学术挑战。通过提供包含执行状态、测试通过率及多种复杂度指标的标注数据，它支持研究者深入探究代码复杂度与错误率之间的关联，验证Halstead度量在实际项目中的预测能力。这有助于推动代码质量评估从主观经验转向客观量化，为软件维护成本估算、代码重构优先级决策提供了实证基础，促进了软件度量学的理论发展与实践应用。

衍生相关工作

基于该数据集衍生的经典工作主要集中在代码质量预测模型与度量优化领域。例如，研究者利用其Halstead指标与可维护性指数训练了基于深度学习的代码缺陷预测系统，显著提升了预测精度。同时，该数据集也催生了针对特定编程语言或领域的定制化度量标准研究，如结合自然语言处理技术分析代码注释与复杂度的关系，进一步拓展了软件质量评估的维度与深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集