autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5_metrics

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个面向代码分析与质量评估的专用数据集，包含164个训练样本，总大小为254,410字节。数据集提供了丰富的代码特征指标，包括任务ID、可执行状态、正确性标记、通过/失败的测试数量、各类Halstead复杂度指标（词汇量、长度、体积、难度、工作量、时间）、圈复杂度、可维护性指数、代码行数（LOC/SLOC）、注释比例、词汇多样性（TTR）、函数定义数量等。此外还包含代码执行相关的元数据（如入口点重复标记）和熵值计算指标（香农熵、预测熵）。这些结构化数据适用于软件工程领域的代码质量评估、缺陷预测、自动化测试验证等任务。

创建时间：

2026-04-21

原始信息汇总

根据您提供的数据集详情页面内容，以下是对该数据集的总结：

数据集概述

数据集名称：autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5_metrics
数据集地址：https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5_metrics
数据集大小：下载大小为 107,781 字节（约105 KB），数据集总大小为 254,410 字节（约248 KB）

数据集结构

该数据集仅包含一个分割（split）—— train（训练集），共包含 164 个样本。

特征字段

数据集包含以下26个特征字段，涵盖了代码任务、代码质量指标和复杂性度量：

字段名称	数据类型	说明
task_id	string	任务标识符
entry_point	string	入口函数
is_executable	bool	代码是否可执行
is_correct	bool	代码是否正确
tests_passed	int64	通过的测试数
tests_failed	int64	失败的测试数
test_run_time_ms	null	测试运行时间（毫秒）
error_type	string	错误类型
halstead_vocabulary	int64	Halstead 词汇量
halstead_length	int64	Halstead 长度
halstead_volume	float64	Halstead 体积
halstead_difficulty	float64	Halstead 难度
halstead_effort	float64	Halstead 工作量
halstead_time	float64	Halstead 时间
cyclomatic_complexity	int64	圈复杂度
maintainability_index	float64	可维护性指数
loc	int64	代码总行数
sloc	int64	代码有效行数
comment_percentage	float64	注释百分比
TTR	float64	类型令牌比
token_dict	string	令牌字典
shannon_entropy	float64	香农熵
mean_predictive_entropy	float64	平均预测熵
max_predictive_entropy	float64	最大预测熵
n_func_defined	int64	定义的函数数量
entry_point_repeated	bool	入口点是否重复

配置信息

配置名称：default
数据文件路径：data/train-*（训练集数据文件）

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g5_metrics，其构建基于对代码生成模型Qwen3-4B在特定策略（trust）和参数（温度t=0.2，生成次数g=5）下输出的代码样本进行系统性评估与度量。数据集中每条样本包含任务标识符（task_id）、函数入口点（entry_point）以及可执行性（is_executable）与正确性（is_correct）的二元判别，并详细记录了通过的测试用例数（tests_passed）、失败数（tests_failed）及运行时错误类型（error_type）。此外，集成了静态代码分析指标，包括Halstead复杂度系列（词汇量、长度、体积、难度、耗时）、圈复杂度（cyclomatic_complexity）、可维护性指数（maintainability_index）、代码行数（loc和sloc）、注释百分比（comment_percentage）、文本重复率（TTR）以及香农熵（shannon_entropy）等，全面刻画代码质量与结构特征。

特点

该数据集的核心特点在于融合了动态执行结果与静态代码质量度量，形成多维度代码评估体系。动态层面通过测试通过/失败数量及错误类型反映代码的功能正确性；静态层面则依托Halstead度量、圈复杂度、可维护性指数等经典软件工程指标，量化代码的复杂度和可读性。同时引入词汇重复率（TTR）和香农熵等语言学特征，评估代码的词汇多样性和信息量。数据集还包含模型预测熵（mean_predictive_entropy和max_predictive_entropy），揭示模型生成代码时的不确定性。这些特征的协同作用使得研究者能够深入理解代码生成模型在可信策略下的行为模式与输出质量。

使用方法

该数据集适用于代码生成模型评估、代码质量分析及可解释性研究等任务。用户可通过HuggingFace Datasets库加载数据，指定配置名称为'default'，并选择'train'分割获取164条样本。每条记录的结构化特征可直接用于构建分类或回归模型，例如利用正确性标签（is_correct）作为目标变量进行质量预测，或使用Halstead度量与熵值作为输入特征分析代码复杂度。此外，token_dict字段存储了词频分布信息，便于进行词汇级分析；而error_type字段可支持错误模式聚类。研究者亦可进一步筛选is_executable为True的样本，聚焦于可运行代码的深度评估。

背景与挑战

背景概述

该数据集由自噬体编码（AutophagyCode）团队于近期创建，旨在探索大语言模型在代码生成任务中的可信度与代码质量评估。核心研究问题聚焦于如何量化模型生成代码的保真度、可维护性与计算效率，尤其关注模型在信任策略（trust strategy）下的输出稳定性。通过引入Halstead复杂度、圈复杂度、可维护性指数等软件工程度量指标，以及香农熵和预测熵等不确定性度量，数据集为评估模型生成的代码在结构正确性与功能性之外的内在质量提供了多维视角。该工作对推动可信人工智能代码生成、提升模型在自动化编程与软件测试中的实用价值具有重要影响。

当前挑战

当前面临的核心挑战在于如何精准定义和量化模型生成代码的“信任度”。一方面，代码功能性正确（如测试通过率）与内在质量指标（如复杂度、可维护性）之间存在潜在冲突，需要构建综合评估框架而非简单依赖单一指标。另一方面，数据集仅包含164个训练样本，规模限制可能导致对模型行为泛化能力的评估偏差，尤其当面对多样化编程任务时，小样本难以覆盖工具调用、并发控制等复杂场景。此外，构建过程中需确保指令微调后模型不产生知识遗忘，而现有熵度量与代码结构特征的关联性尚需进一步验证。

常用场景

经典使用场景

在代码生成与智能编程的学术疆域中，该数据集为探究大语言模型在自动化编程任务中的可信度与策略表现提供了关键评测基准。其设计聚焦于交互式信任评估场景，通过融合代码复杂度指标（如圈复杂度、Halstead复杂度）、可维护性指数与执行正确性（如测试通过/失败数、错误类型）等多维特征，系统评估模型在生成可靠代码时的行为模式。经典用法包括对比不同信任策略（如'trust'参数设置）对代码质量的影响，以及分析模型在遇错时的自我修正能力，从而揭示模型在编程辅助任务中的可靠性边界。

解决学术问题

该数据集直面代码生成领域长期存在的‘黑箱信任危机’，即大模型生成的代码是否值得信赖、其错误模式如何可解释、以及质量如何量化。通过引入Halstead复杂度与香农熵等度量，它解决了代码可理解性与预测随机性之间的关联分析难题。研究可基于此数据，量化模型在生成代码时的渐进式信任衰减现象，或比较不同规模模型在复杂逻辑任务中的表现差异，其意义在于为构建可审计、可归因的代码生成系统奠定了数据驱动的理论基础。

衍生相关工作

该数据集衍生出的经典工作包括：基于信任策略的代码生成模型微调方法，如利用数据中的错误类型和测试失败模式构建对抗性训练样本，提升模型的鲁棒性；以及代码可解释性研究，通过关联Halstead长度与香农熵，提出预测性熵正则化损失函数，引导模型生成更不易混淆的代码。此外，还有工作基于该数据构建了编程辅助系统的可信度评估框架，将圈复杂度与维护性指数作为评测基准，推动了代码生成领域从‘准不准’到‘可信否’的研究范式转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集