autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为213826字节。数据集的特征包括任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）等。此外，还包含了一系列Halstead复杂度度量指标（如halstead_vocabulary, halstead_length, halstead_volume等）和可维护性指数（maintainability_index），以及函数定义数量（n_func_defined）等。这些特征表明数据集可能与编程任务或代码质量评估相关，适用于软件工程领域的代码分析、质量评估或自动化测试等任务。

创建时间：

2026-04-21

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics
数据量: 164 个样本
数据集大小: 213,826 字节
下载大小: 86,567 字节
数据格式: 包含一个训练集（train）拆分

数据结构

数据集包含以下特征字段：

标识与执行信息

task_id: 任务标识符（字符串类型）
entry_point: 入口点（字符串类型）
is_executable: 是否可执行（布尔类型）
is_correct: 是否正确（布尔类型）
tests_passed: 通过的测试数量（整型）
tests_failed: 失败的测试数量（整型）
test_run_time_ms: 测试运行时间（毫秒，当前为空类型）
error_type: 错误类型（字符串类型）

代码度量指标

halstead_vocabulary: Halstead 词汇量（整型）
halstead_length: Halstead 长度（整型）
halstead_volume: Halstead 体积（浮点型）
halstead_difficulty: Halstead 难度（浮点型）
halstead_effort: Halstead 工作量（浮点型）
halstead_time: Halstead 时间（浮点型）
maintainability_index: 可维护性指数（浮点型）
TTR: 类型标记比（浮点型）
token_dict: 令牌字典（字符串类型）
n_func_defined: 定义的函数数量（整型）
entry_point_repeated: 入口点是否重复（布尔类型）

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在程序代码质量评估领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics数据集通过自动化测试与静态分析相结合的方式构建。该数据集以164个训练样本为基础，每个样本包含任务标识、入口点及可执行性等核心字段，并整合了测试通过率、错误类型等动态执行指标，以及Halstead复杂度、可维护性指数等静态代码度量。构建过程注重代码功能的验证与质量特征的量化，为后续分析提供了结构化的多维数据支撑。

特点

该数据集的特点体现在其丰富的代码质量度量维度上，不仅涵盖了测试执行结果如通过数与失败数，还深入集成了Halstead软件科学度量体系，包括词汇量、长度、体积、难度、工作量和时间等计算指标。同时，可维护性指数与TTR（类型标记比）等特征进一步增强了代码可读性与复杂性的评估能力。数据以结构化格式呈现，确保了特征的一致性与可解释性，为代码质量研究提供了全面而细致的分析基础。

使用方法

使用该数据集时，研究者可将其应用于代码质量评估、缺陷预测或自动化测试优化等任务。通过加载数据集中的训练分割，可以访问每个样本的完整特征集合，结合任务标识与入口点信息，进行代码执行正确性分析与质量指标关联研究。数据集支持直接用于机器学习模型的训练与验证，尤其在基于度量的代码属性预测或测试生成策略评估中，能够提供可靠的实证数据来源。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估已成为推动自动化编程发展的关键研究方向。autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics数据集应运而生，其创建旨在系统性地量化与分析由大型语言模型生成的代码片段的质量与可靠性。该数据集通过集成Halstead复杂度指标、可维护性指数及测试通过率等多维度特征，为研究者提供了评估代码功能性、结构复杂性与错误倾向的标准化框架。其构建不仅深化了对自动化代码生成过程中模型输出稳定性的理解，也为优化代码生成策略、提升软件工程实践中的自动化工具效能奠定了数据基础。

当前挑战

该数据集致力于解决自动化代码生成领域中代码质量评估与错误诊断的核心挑战，具体包括如何准确量化生成代码的可靠性、复杂性及可维护性，以及如何建立统一标准以区分功能性正确与结构缺陷。在构建过程中，挑战主要源于多维度指标的融合与标准化，例如Halstead度量与可维护性指数的计算需确保与代码执行结果的一致性；同时，数据采集需平衡测试覆盖的全面性与执行效率，避免因运行时差异引入偏差。此外，标注生成代码的可执行性与正确性时，需处理边界案例与模糊语义，确保评估结果的客观性与可复现性。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g1_metrics数据集为研究者提供了丰富的代码执行与度量特征。该数据集常用于训练和验证机器学习模型，以自动化检测代码中的错误、评估代码可维护性，并优化代码生成与修复策略。通过整合测试通过率、Halstead复杂度指标及可维护性指数，它支持对代码行为进行系统性分析，成为代码智能研究中的基准工具。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括代码错误自动修复模型、代码复杂度预测算法以及可维护性评估框架。这些工作利用数据集中的测试结果和度量特征，开发了先进的机器学习方法，如神经网络模型和统计学习技术，以改进代码生成与优化任务。相关成果已广泛应用于学术论文和工业实践中，进一步丰富了代码智能领域的研究生态。

数据集最近研究