autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于编程任务的分析与评估，包含164个训练样本。数据集提供了每个任务的多维度特征，包括任务标识符（task_id）、执行入口点（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试用例数量（tests_passed/tests_failed）等基础信息。特别地，数据集还包含丰富的代码复杂度度量指标：Halstead系列指标（词汇量、长度、体积、难度、工作量、时间）、可维护性指数（maintainability_index）、TTR（Token Type Ratio）、函数定义数量（n_func_defined）等。这些特征为研究代码质量分析、程序自动修复、编程教育评估等任务提供了全面的数据支持。数据集采用单训练集划分（train），总大小约221KB。

创建时间：

2026-04-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics
数据量: 164 个样本
数据集大小: 221,405 字节
下载大小: 94,731 字节
数据格式: 结构化表格数据

数据结构与特征

数据集包含以下字段：

任务标识: task_id (字符串)
入口点: entry_point (字符串)
可执行性: is_executable (布尔值)
正确性: is_correct (布尔值)
测试通过数: tests_passed (整数)
测试失败数: tests_failed (整数)
测试运行时间: test_run_time_ms (空值)
错误类型: error_type (字符串)
Halstead词汇量: halstead_vocabulary (整数)
Halstead长度: halstead_length (整数)
Halstead体积: halstead_volume (浮点数)
Halstead难度: halstead_difficulty (浮点数)
Halstead工作量: halstead_effort (浮点数)
Halstead时间: halstead_time (浮点数)
可维护性指数: maintainability_index (浮点数)
TTR: TTR (浮点数)
令牌字典: token_dict (字符串)
定义函数数量: n_func_defined (整数)
入口点重复: entry_point_repeated (布尔值)

数据划分

训练集: 包含全部 164 个样本

配置信息

默认配置: 数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics数据集的构建体现了严谨的自动化流程。该数据集通过集成Qwen3-8B模型在特定信任度阈值与生成策略下的输出，结合自动化测试框架对代码样本进行执行验证。每个样本均关联唯一任务标识与入口点，并经过可执行性检验与正确性判定，同时采集了测试通过率、错误类型及多项代码复杂度指标，确保了数据来源的可靠性与评估维度的全面性。

特点

该数据集的核心特征在于其多维度的代码质量评估体系。除了基本的可执行性与正确性标签，数据集还囊括了Halstead复杂度度量、可维护性指数及词汇多样性比率等静态分析指标，为代码生成模型的性能提供了深层次的量化洞察。其结构设计支持对模型输出进行细粒度分析，例如通过测试通过数与失败数直接反映代码的功能可靠性，而错误类型字段则有助于识别常见的生成缺陷模式。

使用方法

使用本数据集时，研究者可将其应用于代码生成模型的训练与基准测试。数据集中的任务标识与入口点便于定位具体编程问题，而丰富的度量字段允许用户从功能正确性、代码复杂度及可维护性等多个角度评估模型输出。典型应用场景包括：基于可执行性与正确性标签进行模型微调；利用复杂度指标分析生成代码的健壮性与效率；或结合测试通过率构建综合性能评分，以推动代码生成技术向更可靠、更高效的方向演进。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估已成为推动自动化编程发展的关键研究方向。autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics数据集应运而生，其创建旨在系统化地评估大型语言模型在代码生成任务中的性能与可靠性。该数据集由相关研究团队构建，聚焦于通过量化指标如Halstead复杂度、可维护性指数及测试通过率等，深入分析生成代码的功能正确性、结构质量与执行效率。其核心研究问题在于如何精准衡量代码生成模型在复杂真实场景下的泛化能力与鲁棒性，为提升自动化编程工具的实用性与可信度提供数据支撑，对软件工程智能化进程具有显著的推动作用。

当前挑战

该数据集致力于解决代码生成领域中的质量评估难题，其核心挑战在于如何设计全面且客观的度量体系，以同时涵盖代码的功能正确性、结构复杂性与可维护性等多维属性。在构建过程中，研究人员需克服数据标注的一致性难题，确保自动化测试与人工验证的协同准确；同时，平衡代码样本的多样性与代表性，以覆盖不同难度与领域的编程任务，避免评估偏差。此外，整合动态执行测试与静态代码分析指标，实现高效可靠的大规模评估流程，亦是数据集构建面临的重要技术障碍。

常用场景

经典使用场景

在代码生成与软件工程领域，autophagycode_D_he_train-mercury_Qwen3-8B_strategy_trust_t0.2_g2_metrics数据集为评估大型语言模型在编程任务中的表现提供了关键基准。该数据集通过包含任务标识、可执行性、正确性及测试通过率等特征，支持对代码生成模型的输出进行系统性验证。经典使用场景涉及自动化代码质量评估，研究者利用其丰富的度量指标，如Halstead复杂度与可维护性指数，深入分析生成代码的结构特性与可靠性，从而推动智能编程辅助工具的优化。

解决学术问题

该数据集有效应对了代码生成研究中模型输出评估标准不统一的学术挑战。通过整合可执行测试与多维代码度量，它解决了生成代码的功能正确性与结构质量难以量化的问题。其意义在于为学术界提供了可复现的评估框架，促进了对代码生成模型泛化能力与鲁棒性的深入研究，进而推动了自动化软件工程与人工智能交叉领域的方法论创新。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在代码生成模型的基准测试与优化算法上。研究者基于其多维评估指标，开发了新型的代码质量预测模型与测试用例生成方法。这些工作进一步拓展了数据集的用途，例如在代码重构推荐、缺陷预测等任务中作为训练或验证数据，促进了软件工程中机器学习应用的深化，并催生了多个开源工具与评估协议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集