autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g7_metrics

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g7_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码分析相关的多个特征，旨在评估代码的质量和功能。数据集提供了164个训练样本，每个样本包含任务ID、入口点、可执行性、正确性、通过和失败的测试数量等基本信息。此外，还包括了代码复杂度指标（如Halstead度量、圈复杂度）、可维护性指数、代码行数（LOC和SLOC）、注释百分比、词汇多样性（TTR）、熵度量以及定义的函数数量等深入分析特征。这些特征使得该数据集适用于软件工程领域的研究，特别是代码质量评估、自动化测试和程序分析等任务。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面 README 文件内容，以下是对该数据集的总结：

数据集概述

数据集名称：stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g7_metrics
数据集规模：包含 164 个训练样本，数据集总大小约为 258 KB，下载大小约为 109 KB。

数据集结构

该数据集只有一个 train 分割，数据类型均为结构化表格数据。

特征列表

数据集包含 27 个特征，可大致分为以下几类：

任务标识与基础信息：
- task_id (字符串)：任务唯一标识
- entry_point (字符串)：入口点
- is_executable (布尔)：是否可执行
- is_correct (布尔)：是否正确
- entry_point_repeated (布尔)：入口点是否重复
代码执行与测试结果：
- tests_passed (整数)：通过的测试数
- tests_failed (整数)：失败的测试数
- test_run_time_ms (空类型)：测试运行时间（毫秒）
- error_type (字符串)：错误类型
代码复杂度与质量指标：
- Halstead 度量：halstead_vocabulary (词汇量)、halstead_length (长度)、halstead_volume (容量)、halstead_difficulty (难度)、halstead_effort (工作量)、halstead_time (时间)
- 圈复杂度：cyclomatic_complexity (整数)
- 可维护性指数：maintainability_index (浮点数)
- 代码行数：loc (总行数)、sloc (有效代码行数)
- 注释比例：comment_percentage (浮点数)
文本/代码熵与多样性：
- TTR (类符形符比，浮点数)
- token_dict (字符串)：令牌字典
- shannon_entropy (香农熵，浮点数)
- mean_predictive_entropy (平均预测熵，浮点数)
- max_predictive_entropy (最大预测熵，浮点数)
函数信息：
- n_func_defined (整数)：定义的函数数量

数据用途

该数据集专注于代码度量与执行结果分析，可用于研究代码复杂度、可维护性、测试通过率与代码质量之间的关系，适合用于代码质量评估、代码生成模型评估或代码复杂度分析等研究方向。

搜集汇总

数据集介绍

构建方式

该数据集以代码生成任务为核心，针对Qwen3-4B模型在特定策略（trust）与温度系数（t0.2）下的输出结果进行构建。每条样本包含任务标识、入口函数、可执行性及正确性标签，并记录了测试通过数、失败数及运行耗时等执行评估指标。数据集进一步融合了Halstead复杂度度量（如词汇量、长度、体积、难度、工作量与时间）、圈复杂度、可维护性指数、代码行数（loc/sloc）、注释比例、词元类型比率（TTR）及香农熵等静态代码特征，同时纳入预测熵值（均值与最大值）以衡量模型输出不确定性。样本还包含函数定义数量与入口函数重复性标记，最终形成164条训练样本，全面覆盖代码生成结果的行为与结构属性。

特点

该数据集的核心特点在于其多维度的代码质量评估体系，兼具动态执行反馈与静态复杂度分析。通过可执行性、正确性及测试结果直接反映模型生成代码的功能正确性，而Halstead与圈复杂度等指标则深入刻画代码的结构复杂性。可维护性指数与注释比例提供了代码可读性与维护成本的量化视角，词元类型比率与香农熵则从信息理论角度揭示代码的多样性。预测熵值作为模型行为不确定性的度量，为探索模型置信度与生成质量之间的关系提供了独特数据支持。这种结构与非结构特征的结合，使得数据集适用于代码生成模型的鲁棒性、可解释性及性能边界研究。

使用方法

该数据集可直接用于训练或评估代码生成模型的代码质量预测任务，例如利用特征列构建回归模型预测代码正确性或可维护性。研究人员可基于执行指标（如is_correct、tests_passed）进行二元分类训练，或结合Halstead复杂度与圈复杂度分析模型输出代码的复杂度分布。预测熵值可作为特征用于不确定性估计研究，帮助识别模型输出的可靠区域。数据集以JSON格式存储于HuggingFace平台，通过datasets库加载，支持直接划分训练集与测试集，适用于监督学习、特征分析及模型对比实验。

背景与挑战

背景概述

在代码生成与程序合成领域，评估模型生成代码的正确性与安全性一直是核心研究问题。该数据集由Qwen团队基于Qwen3-4B模型构建，采用trust策略与温度系数0.2的采样方法生成，旨在探究大语言模型在自动编程任务中的表现。数据集创建于近期，包含164个训练样本，每个样本记录了任务的执行结果、测试通过率、运行时间及多种代码复杂度指标（如Halstead度量、圈复杂度、可维护性指数等）。其核心研究问题在于量化模型输出代码的质量与安全隐患，为该领域提供了细粒度的评估基准，对推动可信代码生成研究具有重要影响力。

当前挑战

该数据集面临的核心挑战包括：1）所解决的领域问题：大语言模型生成的代码常存在逻辑错误、安全漏洞或性能低下，如何系统性地量化这些缺陷是评估代码可靠性的关键，该数据集通过多维度指标（如错误类型、测试通过率、Shannon熵）为这一问题提供了解决方案。2）构建过程中的挑战：数据集仅包含164个样本，规模较小，可能难以覆盖复杂编程任务的全貌；同时，代码复杂度度量指标（如Halstead难度、努力量）的计算依赖代码实现准确性，而模型生成的代码可能存在边缘情况，导致度量偏差；此外，时间成本（test_run_time_ms）字段为空值，表明性能评估数据不完整，影响了对运行时效率的全面分析。

常用场景

经典使用场景

在代码智能与软件工程研究领域，该数据集为评估和优化大语言模型在代码生成任务中的表现提供了精细化分析工具。其核心应用场景聚焦于多维度代码质量度量，涵盖可执行性、正确性、测试通过率、执行时间、错误类型等执行层面指标，同时集成Halstead复杂度、圈复杂度、可维护性指数等软件工程成熟度量体系。研究者可借此深入剖析模型生成代码的健壮性、效率与可维护性，尤其适用于对比不同策略（如trust策略）下Qwen3-4B模型的生成质量差异。

衍生相关工作

围绕该数据集的质量度量框架，已衍生出多项具有影响力的研究工作。一方面，基于Halstead度量和圈复杂度的组合特征，研究者构建了代码可理解性预测模型，用于预判AI生成代码的人工修复成本。另一方面，该数据集催生了针对trust策略与代码质量之间因果关系的实证分析，揭示了置信度阈值设定对输出稳健性的非线性影响。值得注意的是，该数据集的shannon熵与预测熵字段也被后续研究用于探究模型在代码空间中的不确定性表征，进而衍生出主动学习与不确定性优化相关的学术探索。

数据集最近研究