autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，总大小为219442字节。数据集提供了多个特征字段，包括任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）、以及一系列代码复杂度度量指标如Halstead度量（halstead_vocabulary, halstead_length, halstead_volume, halstead_difficulty, halstead_effort, halstead_time）、维护性指数（maintainability_index）、TTR（token type ratio）、token字典（token_dict）、定义的函数数量（n_func_defined）和入口点是否重复（entry_point_repeated）。数据集适用于代码质量分析、自动化测试和软件维护性评估等任务。

创建时间：

2026-04-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics
数据量: 164 个示例
数据集大小: 219,442 字节
下载大小: 89,265 字节
数据格式: 包含一个训练集（train）拆分

数据结构与特征

数据集包含以下字段：

标识与执行信息

task_id: 任务标识符（字符串类型）
entry_point: 入口点（字符串类型）
is_executable: 是否可执行（布尔类型）
is_correct: 是否正确（布尔类型）
tests_passed: 通过的测试数量（整数类型）
tests_failed: 失败的测试数量（整数类型）
test_run_time_ms: 测试运行时间（毫秒，当前为空值类型）
error_type: 错误类型（字符串类型）

代码度量指标

halstead_vocabulary: Halstead 词汇量（整数类型）
halstead_length: Halstead 长度（整数类型）
halstead_volume: Halstead 体积（浮点数类型）
halstead_difficulty: Halstead 难度（浮点数类型）
halstead_effort: Halstead 工作量（浮点数类型）
halstead_time: Halstead 时间（浮点数类型）
maintainability_index: 可维护性指数（浮点数类型）
TTR: 类型标记比（浮点数类型）
token_dict: 令牌字典（字符串类型）
n_func_defined: 定义的函数数量（整数类型）
entry_point_repeated: 入口点是否重复（布尔类型）

数据文件

配置文件: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics数据集通过系统化的方法构建而成。其核心流程涉及从特定任务中提取代码样本，并利用Qwen3-8B模型结合信任策略与温度参数进行生成。每个样本均经过严格的执行测试，以验证代码的可执行性与正确性，同时整合了Halstead复杂度指标与可维护性指数等多维度度量，从而形成一套结构化的评估框架。

使用方法

在应用层面，该数据集主要服务于代码生成模型的训练与评估研究。使用者可加载训练分割中的样本，利用任务ID与入口点信息重现代码执行环境。通过分析is_executable、is_correct及测试结果字段，能够直接评估生成代码的功能正确性；结合Halstead指标与可维护性指数，则可进一步开展代码质量与复杂度的实证分析，为模型优化提供数据驱动的见解。

背景与挑战

背景概述

在软件工程与代码质量评估领域，自动化代码生成与测试已成为推动编程效率与可靠性的关键研究方向。autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics数据集应运而生，其创建旨在系统评估基于大型语言模型的代码生成能力，特别是针对特定任务下的执行正确性、复杂度及可维护性等多维度指标。该数据集由研究团队通过集成先进的语言模型策略构建，核心研究问题聚焦于如何量化生成代码的功能准确性与其内部结构质量之间的关联，从而为自动化编程工具的开发与优化提供实证基础。自推出以来，该数据集为代码智能领域的模型比较与性能基准测试提供了重要支撑，促进了生成代码在真实场景中的可靠性研究。

当前挑战

该数据集致力于解决代码生成领域中的核心挑战，即如何确保模型生成的代码不仅语法正确，更能通过功能测试并具备良好的软件工程属性，如可维护性与低复杂度。具体而言，挑战体现在评估生成代码在多样化任务中的执行正确性，同时量化其Halstead复杂度与可维护性指数等指标，以平衡功能实现与代码质量。在构建过程中，研究人员需克服数据标注的复杂性，包括设计可靠的可执行测试用例以验证代码功能，并准确计算静态代码度量值，这些过程对工具链的鲁棒性与数据一致性提出了较高要求。此外，确保数据集中样本的多样性与代表性，以覆盖广泛编程场景，也是构建时面临的实际难题。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g3_metrics数据集为研究者提供了丰富的代码执行与度量特征。该数据集常用于训练和验证机器学习模型，以自动化分析代码的可执行性、正确性及复杂度指标，例如通过Halstead度量和可维护性指数来量化代码的健壮性与开发效率。

解决学术问题

该数据集有效解决了代码质量自动化评估中的关键学术问题，如代码错误检测、复杂度度量标准化以及可维护性预测。通过整合执行测试结果与静态代码特征，它为构建更精确的代码分析模型提供了数据基础，推动了软件工程中智能化质量保障方法的发展，并促进了代码生成与优化研究的深入。

实际应用

在实际应用中，该数据集支持开发工具与IDE插件的构建，用于实时代码审查与质量监控。它可集成于持续集成管道中，自动识别潜在缺陷并评估代码变更的影响，从而提升软件开发流程的可靠性与效率，助力团队实现更高质量的代码交付与维护。

数据集最近研究