autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6_metrics

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个训练样本，主要用于代码分析与质量评估。数据集提供了丰富的代码特征，包括任务ID、入口点、可执行性、正确性、测试通过与失败次数等基础信息，以及Halstead复杂度指标（如词汇量、长度、体积、难度、工作量、时间）、圈复杂度、可维护性指数、代码行数（LOC和SLOC）、注释比例、类型标记比率（TTR）、标记字典、香农熵、预测熵等高级代码度量。此外，还包含函数定义数量和入口点重复性等结构信息。这些特征使得该数据集适用于代码质量评估、缺陷预测、自动化测试等软件工程任务。数据集以训练集形式提供，总大小为258135字节，下载大小为109199字节。

创建时间：

2026-04-21

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是对该数据集的总结：

数据集概述

数据集名称：autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6_metrics
地址：https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6_metrics

数据集结构

该数据集仅包含一个分割（split）：train。

训练集：包含164个样本，总大小约258KB。

特征字段

数据集包含以下27个特征字段，涵盖代码标识、执行结果、代码复杂度与质量度量等多个维度：

字段名	数据类型	说明
`task_id`	string	任务标识符
`entry_point`	string	入口点
`is_executable`	bool	代码是否可执行
`is_correct`	bool	代码是否正确
`tests_passed`	int64	通过的测试数量
`tests_failed`	int64	失败的测试数量
`test_run_time_ms`	null	测试运行时间（毫秒）
`error_type`	string	错误类型
`halstead_vocabulary`	int64	Halstead词汇量
`halstead_length`	int64	Halstead长度
`halstead_volume`	float64	Halstead体积
`halstead_difficulty`	float64	Halstead难度
`halstead_effort`	float64	Halstead工作量
`halstead_time`	float64	Halstead时间
`cyclomatic_complexity`	int64	圈复杂度
`maintainability_index`	float64	可维护性指数
`loc`	int64	代码行数
`sloc`	int64	源代码行数
`comment_percentage`	float64	注释百分比
`TTR`	float64	类型令牌比
`token_dict`	string	令牌字典
`shannon_entropy`	float64	香农熵
`mean_predictive_entropy`	float64	平均预测熵
`max_predictive_entropy`	float64	最大预测熵
`n_func_defined`	int64	定义的函数数量
`entry_point_repeated`	bool	入口点是否重复

数据集配置

该数据集仅有一个默认配置（default），训练集数据文件路径为：data/train-*。

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g6_metrics，其构建过程融合了代码生成与质量评估的自动化流程。首先，基于Qwen3-4B模型，采用trust策略、温度系数0.2以及6个生成样本（g6）产生候选代码。随后，通过任务ID（task_id）与入口函数（entry_point）标识每个编程问题，并借助执行引擎评估代码可执行性与正确性，记录通过与失败的测试用例数量、运行时间及错误类型。同时，针对每个生成的代码片段，计算其静态度量指标，包括Halstead复杂度（词汇量、长度、体积、难度、耗时）、圈复杂度、可维护性指数、代码行数、注释比例、词符比（TTR）及香农熵等，形成多维度、结构化的评估数据集。

特点

该数据集的核心特点在于其多维度的代码质量评估体系。除了基础的执行语义信息（如可执行性、正确性、测试通过率、运行时间）外，它还整合了丰富的静态代码分析指标，涵盖Halstead复杂度系列、圈复杂度、可维护性指数等软件工程经典度量，以及词符分布与预测熵等语言模型视角的特征。这种设计使得数据集能够同时反映代码的逻辑正确性与结构质量，便于研究者从执行层与代码风格层双重评估模型生成能力。此外，数据集包含164条训练样本，每条样本携带24个特征字段，结构紧凑而信息密集。

使用方法

该数据集适用于多种代码智能研究任务，尤其适合用于评估与优化代码生成模型的性能。使用者可通过任务ID和入口函数映射至原始编程问题，利用可执行性和正确性标签快速筛选有效或无效生成。结合静态复杂度与执行指标，可进行多目标分析，例如探究代码复杂度与测试通过率之间的关联，或对比不同生成策略（如不同温度或采样数）对代码质量的影响。此外，数据集提供的概率熵与词符字典支持对生成过程的不确定性与多样性进行分析，促进对生成模型的深层理解与调优。

背景与挑战

背景概述

该数据集由自噬代码（AutophagyCode）团队开发，基于Qwen3-4B模型在Mercury策略下生成，旨在系统评估代码生成模型在信任阈值（trust）为0.2、生成数量为6（g6）时的代码质量与复杂度。数据集创建于2025年，聚焦于代码执行正确性、测试通过率及多种软件度量指标（如Halstead复杂度、圈复杂度、可维护性指数等），为代码智能领域提供了细粒度的评估基准。其核心研究问题在于理解不同生成策略对代码结构特性和功能性质量的影响，对推动大语言模型在代码生成任务中的可信应用具有重要价值。

当前挑战

数据集面临的挑战分为两方面：一是所解决的领域问题——代码生成模型常面临生成代码可执行性低、测试覆盖率不足及复杂度难控制的困境，该数据集通过引入Halstead度量、圈复杂度和香农熵等指标，精准刻画了代码的结构质量与预测不确定性，为模型优化提供了量化依据；二是构建过程中遇到的挑战，包括从模型输出中提取并标准化164个样本的多维度特征，处理测试运行时间缺失值，以及确保度量项（如TTR、entry_point_repeated）的语义一致性，这些均对数据清洗和验证流程提出了高要求。

常用场景

经典使用场景

在代码智能与程序语言处理领域，该数据集常被用于评估和训练大语言模型在代码生成任务上的表现，尤其是在复杂函数实现与多测试用例验证场景中。数据集不仅记录了代码的可执行性与正确性，还纳入了Halstead复杂度、圈复杂度、维护性指数等多种软件度量指标，为深入剖析模型输出代码的质量与效率提供了量化基础。研究者在评估如Qwen3-4B等模型时，借助该数据集可系统比较不同策略下的代码生成效果，从而推动代码合成技术的优化。

实际应用

在实际应用中，该数据集可用于智能编程助手的性能校验，例如评估AI代码补全或自动缺陷修复工具在真实开发场景中的表现。软件工程团队可借助数据集中详细的复杂度与执行效率指标，筛选出既正确又高效的模型输出，作为代码审查或自动化流水线中的候选方案。此外，该数据集对模型在特定库函数或算法实现中的表现进行细粒度分析，有助于企业级AI编码工具在安全性与可维护性上达到工业化标准。

衍生相关工作

基于该数据集，研究者已衍生出若干经典工作，包括面向代码正确性与复杂度的联合优化方法、基于维护性指数约束的代码生成策略、以及融合香农熵与圈复杂度的输出多样性分析。相关工作还探索了利用该数据中“entry_point_repeated”和“error_type”字段构建鲁棒性更强的测试集，或通过Halstead指标校准模型生成代码的词汇丰富度。这些衍生研究共同构筑了从单一正确性到多维质量评估的桥梁，为后续的代码智能评测基准奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集