autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码分析或编程任务相关的结构化数据，共164个训练样本。数据集提供了丰富的代码特征指标，包括任务ID（task_id）、入口点（entry_point）、可执行状态（is_executable）、正确性（is_correct）、测试通过/失败数量（tests_passed/tests_failed）、各种代码复杂度指标（如Halstead复杂度指标、圈复杂度cyclomatic_complexity）、可维护性指数（maintainability_index）、代码行数统计（loc/sloc）、注释比例（comment_percentage）、词汇多样性（TTR）、熵值度量（shannon_entropy）等24个特征字段。数据集总大小为259034字节，下载大小为109329字节。虽然具体应用场景未明确说明，但从特征字段可以推断该数据集适用于代码质量分析、程序正确性预测、软件度量研究等相关任务。

创建时间：

2026-04-22

原始信息汇总

好的，根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

该数据集名为 stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics，托管于 Hugging Face。

数据集规模

总样本数：164 条
数据集大小：259,034 字节
下载大小：109,329 字节
数据分割：仅包含训练集（train）

特征字段

数据集包含多种与代码质量和执行相关的特征，具体如下：

特征名	数据类型	说明
`task_id`	string	任务标识符
`entry_point`	string	入口点函数名
`is_executable`	bool	代码是否可执行
`is_correct`	bool	代码是否正确
`tests_passed`	int64	通过的测试数量
`tests_failed`	int64	失败的测试数量
`test_run_time_ms`	null	测试运行时间（毫秒）
`error_type`	string	错误类型
`halstead_vocabulary`	int64	Halstead 词汇量
`halstead_length`	int64	Halstead 长度
`halstead_volume`	float64	Halstead 容量
`halstead_difficulty`	float64	Halstead 难度
`halstead_effort`	float64	Halstead 工作量
`halstead_time`	float64	Halstead 时间
`cyclomatic_complexity`	int64	圈复杂度
`maintainability_index`	float64	可维护性指数
`loc`	int64	代码行数
`sloc`	int64	源码行数
`comment_percentage`	float64	注释百分比
`TTR`	float64	类型令牌比
`token_dict`	string	令牌字典
`shannon_entropy`	float64	香农熵
`mean_predictive_entropy`	float64	平均预测熵
`max_predictive_entropy`	float64	最大预测熵
`n_func_defined`	int64	定义的函数数量
`entry_point_repeated`	bool	入口点是否重复

配置与数据文件

配置名称：default
数据文件路径：data/train-*（支持通配符匹配）

搜集汇总

数据集介绍

构建方式

自监督代码生成与可信度评估的交叉验证是当前代码智能领域的前沿范式，该数据集正是基于这一理念构建而成。具体而言，数据集以开源代码竞赛平台上的编程题目为原始任务，采用Qwen3-4B作为基础生成模型，在温度系数为0.2、生成长度为8等超参数配置下，通过迭代式信任策略对模型输出进行筛选与标注。每条数据记录不仅包含任务标识、入口函数及其可执行性与正确性标签，还深度融合了代码复杂度度量体系，如Halstead复杂度指标、圈复杂度、可维护性指数，以及熵值类语言统计特征，从而构建了一个多维度、结构化的代码质量画像。

特点

该数据集在代码评估领域展现出显著的前沿特性，其核心优势在于对代码质量的多层次量化表征。除基础的编译与测试通过率外，数据集创新性地纳入了Halstead词汇量、长度、难度与工作量等经典软件工程指标，同时融合了圈复杂度与可维护性指数，将静态代码分析提升至认知复杂度层面。更进一步，通过引入香农熵、平均预测熵及最大预测熵等来自模型置信度的动态度量，数据集实现了生成模型内部不确定性向代码可信度的映射。此外，词性标记比例与词汇多样性等统计属性共同构成了代码语言特征的完整拼图。

使用方法

该数据集在代码生成与质量评估领域具有广泛的应用弹性。研究者可将其作为基准测试集，用于评估不同预训练代码模型在基础编程任务上的生成准确率与代码可维护性；亦可基于其丰富的Halstead与圈复杂度指标，训练代码质量预测模型，实现自动化代码评审。在可信生成研究方向上，数据集中的序列化token分布与熵值特征为探索模型置信度与输出质量之间的相关性提供了关键数据支柱。使用时，用户可直接通过HuggingFace Datasets库加载train分割，利用task_id与entry_point字段进行任务匹配，并借助tests_passed与tests_failed字段作为监督信号开展分类或回归实验。

背景与挑战

背景概述

该数据集于近期构建，由研究团队基于Qwen3-4B模型在代码生成任务中引入“信任策略”（strategy_trust）机制生成，旨在探索大语言模型在自监督或半监督代码补全与验证场景中的表现。核心研究问题集中于如何通过度量代码的复杂度、可维护性及模型预测的不确定性（如香农熵、预测熵）来评估生成代码的可靠性。这些指标涵盖Halstead复杂度、圈复杂度、维护性指数等经典软件工程度量，以及执行层面的测试通过率与错误类型。通过整合这些维度，数据集为理解模型生成代码的鲁棒性提供了多视角的分析基础，对自动化代码评审与可信代码生成领域具有潜在影响力。

当前挑战

所解决的核心领域挑战在于，大语言模型生成的代码往往缺乏可解释的可靠性度量，传统基于测试通过率的评估难以揭示代码内在的复杂性与维护性问题。该数据集面临的构建挑战包括：1）如何从有限样本（164条训练实例）中提取具有统计意义的度量特征，避免因数据稀疏性导致的偏差；2）整合多维度软件工程指标（如Halstead度量、圈复杂度、维护性指数）与模型预测熵的关联分析，需要设计合理的归一化与融合策略；3）处理执行层面数据的缺失（如test_run_time_ms为空值）可能影响完整性，需在后续版本中补充运行时特征以增强评估的全面性。

常用场景

经典使用场景

在代码生成与程序合成领域，自动评估生成代码的质量始终是核心挑战之一。该数据集专为代码生成模型的评测与优化而设计，经典使用场景聚焦于多维度代码质量分析：通过记录每个生成样本的测试通过率、运行时间、错误类型等执行指标，结合Halstead复杂度、圈复杂度、可维护性指数等静态代码度量，研究者能够系统性地衡量生成代码的功能正确性与内在质量。此外，数据集还纳入了香农熵、预测性熵等代码序列的统计特征，为深入理解模型在代码空间中的行为模式提供了数据基础。这一设计使得它成为训练代码质量预测模型、开展代码生成模型弱点分析以及构建自动化代码审查辅助工具的绝佳数据支撑。

衍生相关工作

围绕该数据集已涌现出一系列富有启发性的衍生工作。在评测基准层面，研究者借鉴其多维度指标设计，构建了覆盖更多编程语言与任务类型的大型代码生成质量评估框架，推动了代码智能评测标准的统一。在模型优化方面，有工作利用数据集中Halstead度量与测试结果的关联性，提出了一种基于代码复杂度的对比学习预训练策略，显著提升了生成代码的可维护性。此外，部分团队探索了将数据集的代码熵特征与深度代码理解模型相结合，开发出能够自动识别生成代码中潜在逻辑缺陷的检测器。在自动化软件工程领域，该数据集还启发了基于多目标优化的代码生成路由机制，根据任务特点动态选择最适宜的生成策略，从而在正确性与代码质量之间取得最佳平衡。

数据集最近研究