autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g4_metrics

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g4_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列与代码分析相关的特征，适用于软件工程领域的代码质量评估和复杂度分析。数据集包含164个训练样本，每个样本包含多个特征字段，如任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、错误类型（error_type）等。此外，数据集还提供了多种代码度量指标，包括Halstead度量（如词汇量、长度、体积、难度、努力程度和时间）、圈复杂度（cyclomatic_complexity）、可维护性指数（maintainability_index）、代码行数（loc, sloc）、注释比例（comment_percentage）、词汇多样性（TTR）、熵度量（shannon_entropy, mean_predictive_entropy, max_predictive_entropy）等。这些特征可用于评估代码的复杂度、可维护性和其他质量属性。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是该数据集的关键信息总结：

数据集概述

数据集名称：autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g4_metrics
数据集地址：https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g4_metrics

数据特征

该数据集包含以下26个字段，涵盖代码任务标识、执行结果、代码复杂度与熵等多维度指标：

字段名称	数据类型	描述
task_id	string	任务标识
entry_point	string	入口点
is_executable	bool	是否可执行
is_correct	bool	是否正确
tests_passed	int64	通过的测试数量
tests_failed	int64	失败的测试数量
test_run_time_ms	null	测试运行时间（毫秒，此字段为空）
error_type	string	错误类型
halstead_vocabulary	int64	Halstead词汇量
halstead_length	int64	Halstead长度
halstead_volume	float64	Halstead体积
halstead_difficulty	float64	Halstead难度
halstead_effort	float64	Halstead工作量
halstead_time	float64	Halstead时间
cyclomatic_complexity	int64	圈复杂度
maintainability_index	float64	可维护性指数
loc	int64	代码行数
sloc	int64	源代码行数
comment_percentage	float64	注释百分比
TTR	float64	类型令牌比率
token_dict	string	令牌字典
shannon_entropy	float64	香农熵
mean_predictive_entropy	float64	平均预测熵
max_predictive_entropy	float64	最大预测熵
n_func_defined	int64	定义的函数数量
entry_point_repeated	bool	入口点是否重复

数据集划分

该数据集仅包含一个划分（split）：

train（训练集）：164 个样本，数据大小为 230,945 字节

配置文件

配置名称：default
数据文件路径：data/train-*（匹配训练集数据文件）

数据集大小

下载大小：98,919 字节
数据集总大小：230,945 字节

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g4_metrics，是基于大语言模型Qwen3-0.6B在特定策略下生成的代码评估结果而构建的。数据集中的每条样本均对应一个编程任务，包含了任务标识符（task_id）和入口函数（entry_point）等基本信息。在构建过程中，系统自动运行生成的代码，记录其是否可执行（is_executable）、正确性（is_correct）、通过与失败的测试用例数量（tests_passed和tests_failed）以及运行时性能（test_run_time_ms）。此外，还通过静态分析工具提取了代码的哈斯提德复杂度指标（如词汇量、长度、体积、难度、耗时）、圈复杂度、可维护性指数、代码行数、注释比例、文本重复率（TTR）、香农熵和预测熵等多元特征，从而形成对代码质量与复杂度的全面刻画。整个数据集包含164条训练样本，以parquet格式存储。

特点

该数据集的核心特色在于其多维度、多层次的代码质量评估体系。它不仅涵盖了传统的功能性指标（如可执行性、正确性、测试通过率），还引入了丰富的软件工程度量指标，包括哈斯提德复杂度（Halstead metrics）和麦凯圈复杂度（Cyclomatic Complexity），为代码的认知负荷、结构复杂度提供了量化视角。同时，可维护性指数（Maintainability Index）和代码行数统计（loc/sloc/comment_percentage）有助于评估代码的可读性与维护成本。更进一步，数据集纳入了信息论度量如香农熵、最大及平均预测熵，从代码分布的随机性角度提供了新颖的分析维度。这些特征的融合，使得该数据集在代码质量分析、生成模型评估以及程序性能预测等研究领域具有独特的应用价值。

使用方法

该数据集适用于监督学习、多任务学习及特征分析等研究场景。用户可直接加载parquet文件，利用包含的task_id与entry_point作为任务标识，将is_correct、tests_passed等作为分类或回归任务的目标变量。所有的哈斯提德和圈复杂度指标可视为高维特征，用于构建代码质量预测模型或进行特征重要性分析。对于评估代码生成模型输出的研究者而言，该数据集提供了benchmark级别的细粒度指标，可用于对比不同模型或策略的生成结果。此外，TTR、熵值等特征适合自然语言处理与代码表征学习的跨模态研究。推荐在Python环境中使用pandas等库读取数据，并通过Scikit-learn、PyTorch或TensorFlow进行模型训练与实验。

背景与挑战

背景概述

该数据集由名为autophagycode的团队构建，旨在评估和提升Qwen3-0.6B模型在代码生成任务中的可靠性与质量。数据集创建于近期，研究核心聚焦于代码智能领域，特别是针对小型语言模型在代码执行正确性、测试通过率及代码复杂度等方面的表现。通过引入Halstead复杂度指标、圈复杂度、可维护性指数、香农熵等多元度量，数据集为评估模型生成的代码功能正确性、结构可读性与执行效率提供了精细化的分析框架。这一工作对代码合成、自动化测试及软件工程智能化等前沿方向具有显著推动作用，尤其在探索资源受限条件下轻量级模型代码生成能力的边界方面贡献了关键基准。

当前挑战

当前数据集面临的主要挑战包括：1) 代码生成领域长期存在的根本性问题，如模型输出在语法正确性之外的功能完备性与逻辑一致性难以保证，尤其在小参数规模模型上，代码的语义级错误与边界条件处理能力仍然薄弱；2) 数据集构建过程中，虽然采用了多元质量指标（如Halstead量度与预测熵），但指标间的关联性与对实际代码质量的有效表征尚需深入验证；3) 数据规模仅有164个训练样本，限制了模型泛化能力的评估深度，且在复杂任务场景下的代表性不足，难以全面反映代码生成任务的多样性挑战。

常用场景

经典使用场景

在代码智能与软件工程研究领域，该数据集为评估和提升代码生成模型的可信度与鲁棒性提供了关键资源。其经典使用场景聚焦于面向自动化编程任务的模型能力诊断与优化，例如在基于Transformer架构的代码补全或函数生成任务中，研究者可利用该数据集记录的执行正确性、测试通过率及运行时延等关键指标，系统性地分析模型在功能性正确性与非功能性质量（如代码复杂度、可维护性）之间的权衡。此外，通过引入Halstead复杂度、圈复杂度及香农熵等代码度量特征，该数据集支持对生成代码的结构化稳定性进行深度剖析，从而构建从低级语法正确性到高级语义可靠性的多维度评估框架。

衍生相关工作

基于该数据集的多维特征结构，已衍生出多个值得关注的研究方向。其中，利用Halstead体积与圈复杂度预测生成代码的执行正确性，催生了基于代码度量融合的可信评估模型；将香农熵与最大预测熵相结合，推动了面向代码生成模型的输出不确定性量化研究。此外，该数据集支持的“任务执行状态—代码复杂度”联合分析，启发了一系列旨在平衡生成效率与代码质量的早期故障预警算法，以及面向低资源场景的轻量级代码反模式检测工具。这些衍生工作不仅深化了我们对代码生成内部机制的理解，还为构建下一代更安全、可解释的AI编程助手奠定了实证基础。

数据集最近研究