autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g7_metrics

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g7_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含164个代码分析样本，用于评估代码质量和执行特性。每个样本记录24项特征，包括：1) 标识信息（task_id, entry_point）；2) 执行结果（is_executable, is_correct, tests_passed/failed）；3) 代码复杂度指标（halstead系列指标、圈复杂度、可维护性指数）；4) 代码结构特征（代码行数LOC、有效代码行数SLOC、注释比例）；5) 信息熵指标（香农熵、预测熵）。数据集仅包含训练集，适用于代码质量评估、缺陷预测等软件工程任务。

创建时间：

2026-04-22

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

数据集名称: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g7_metrics

数据集大小:

下载大小：100268 字节
数据集总大小：227462 字节
示例数量：164 条
数据划分：仅包含训练集（train），共 164 个样本

特征字段

数据集包含 26 个特征，涵盖代码性能、复杂度、质量度量等多个维度：

任务标识

task_id (string): 任务唯一标识
entry_point (string): 代码入口点

执行与正确性

is_executable (bool): 代码是否可执行
is_correct (bool): 代码是否正确
tests_passed (int64): 通过的测试数量
tests_failed (int64): 失败的测试数量
test_run_time_ms (null): 测试运行时间（毫秒，当前为 null）
error_type (string): 错误类型

代码复杂度与质量指标

Halstead 度量:
- halstead_vocabulary (int64): 词汇量
- halstead_length (int64): 长度
- halstead_volume (float64): 体积
- halstead_difficulty (float64): 难度
- halstead_effort (float64): 工作量
- halstead_time (float64): 时间
圈复杂度:
- cyclomatic_complexity (int64): 圈复杂度
可维护性:
- maintainability_index (float64): 可维护性指数
代码规模:
- loc (int64): 代码总行数
- sloc (int64): 源码行数
- comment_percentage (float64): 注释百分比

其他指标

TTR (float64): 文本/令牌比率
token_dict (string): 令牌字典
shannon_entropy (float64): 香农熵
mean_predictive_entropy (float64): 平均预测熵
max_predictive_entropy (float64): 最大预测熵
n_func_defined (int64): 定义的函数数量
entry_point_repeated (bool): 入口点是否重复

配置信息

配置名称: default
数据文件路径: data/train-*（训练集）

搜集汇总

数据集介绍

构建方式

该数据集源自对代码生成模型输出质量的系统性评估与度量，其构建融合了代码执行验证与静态分析技术。数据集的每条记录对应一个编程任务（task_id），通过执行模型生成的代码并比对测试用例结果，采集了is_correct、tests_passed、tests_failed及test_run_time_ms等执行指标。在此基础上，利用Halstead复杂度度量体系与McCabe圈复杂度计算方法，提取了halstead_vocabulary、halstead_volume、cyclomatic_complexity等代码结构特征，并引入maintainability_index、loc、sloc等可维护性指标，构建起一个多维度刻画代码质量的结构化集合。

特点

数据集的核心特点在于其多模态的代码质量评估视角，兼具执行层面的正确性判断与代码本体的复杂度分析。从执行结果来看，它记录了测试通过数、失败数以及错误类型（error_type），提供了对模型生成代码功能正确性的细致刻画。在代码结构维度，通过shannon_entropy、mean_predictive_entropy等熵度量，以及TTR（Type-Token Ratio）等词汇丰富度指标，深入揭示了生成代码的信息含量与模式规律。此外，n_func_defined与entry_point_repeated字段进一步捕捉了代码中函数的定义行为，为分析模型输出的一致性与冗余性提供了独特视角。

使用方法

使用者可通过加载HuggingFace Datasets库的load_dataset函数，指定数据集名称与配置参数，获取包含164条样本的训练集（train split）。数据集的字段设计使其天然适用于代码生成模型的评测与优化任务：研究者可基于is_correct与tests_passed等字段衡量模型输出的准确性，利用复杂度特征作为正则化或奖励信号进行模型微调。同时，该数据集也可支撑代码质量预测模型的训练，以halstead_volume、cyclomatic_complexity等特征为输入，预测代码的执行正确性或其可维护性等级，进而推动从生成到验证的闭环研究。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成模型的评估一直是备受关注的焦点。autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g7_metrics数据集由相关研究团队于近期创建，旨在系统性地评估Qwen3-0.6B模型在代码生成任务上的表现。该数据集通过'mercury'策略，结合信任度阈值0.2与7轮生成机制，聚焦于代码的可执行性、正确性、测试通过率等核心指标，并引入Halstead复杂度、圈复杂度、可维护性指数等软件工程度量标准。这一工作不仅为代码生成模型的性能评估提供了多维度的量化工具，也推动了从单一功能正确性到代码质量综合审视的研究范式演进，对提升人工智能编程助手的可靠性与实用性具有深远影响。

当前挑战

该数据集主要解决两大领域的挑战。其一，在代码生成评估中，传统方法往往仅关注代码是否通过给定测试用例，而忽视了代码的可读性、可维护性与复杂度，导致模型产出的代码虽功能正确却难以集成。该数据集通过引入Halstead度量、圈复杂度、可维护性指数等指标，实现了对代码质量的细粒度刻画。其二，在构建过程中，面临如何有效收集与标注多样化代码任务的难题，特别是在确保每个样本具有高可靠性测试环境的同时，还需平衡不同任务间的难度分布。此外，对164个训练样本进行多维度量提取与校验，涉及复杂的计算流程与阈值调整，以确保数据的准确性与代表性，这对数据集的质量控制提出了严峻考验。

常用场景

经典使用场景

在代码智能与软件工程研究的交汇领域，该数据集为评估与优化代码生成模型提供了经典基准。其核心用途在于通过丰富的代码度量指标——涵盖Halstead复杂度系列、圈复杂度、可维护性指数、Shannon熵及预测熵等——对模型生成的代码进行多维度质量评估。研究者可将该数据集用于监督式微调或偏好对齐训练，例如基于对话中可信度与中立性策略生成的代码样本，探索如何提升小型语言模型（如Qwen3-0.6B）在代码生成任务中的正确性与可执行性。数据集的特性使其特别适合构建从功能正确性到代码内在质量的细粒度评估框架，从而推动代码生成领域从“能生成”向“生成好”的范式演进。

解决学术问题

该数据集针对学术界长期以来面临的代码生成质量评估维度单一的问题提供了系统性解决方案。传统上，代码生成研究主要依赖功能正确性（如测试通过率）作为评价指标，忽略了对代码结构性、可维护性及认知负载的考量。本数据集通过引入22项细粒度度量，使研究者能够量化代码的词汇复杂度、控制流复杂度、信息密度及人类理解难度，从而揭示模型在不同质量维度上的优缺点。这解决了诸如“高正确率但低可维护性代码”的识别难题，并推动了代码生成模型在多目标优化（如性能与可读性平衡）方面的学术探索。数据集的意义在于为构建更全面、更可信的代码质量评估体系奠定了数据基础，显著提升了研究成果在真实软件工程环境中的参考价值。

衍生相关工作

该数据集的发布催生了一系列具有深远影响的衍生研究。一是基于多维度度量空间的代码质量对比学习范式，研究者通过将Halstead度量与可维护性指数等高阶指标嵌入训练目标，发展了能够同时优化代码功能性与结构性的多任务学习模型。二是针对代码生成中“可信度-复杂度”权衡的探索，衍生出基于熵度量的不确定性感知代码生成框架，为高风险场景下的代码推荐提供了安全边界。三是数据集中的编程语言无关度量（如圈复杂度、注释比例）被用于构建跨语言代码风格迁移工具，实现了不同编程语言间代码规范的自动适配。此外，数据集中错误类型的细粒度标注还推动了代码修复领域的研究，促使学者开发出能根据错误类型（如逻辑错误、运行时错误）定制修复策略的专用模型，显著提升了自动程序修复的有效性与泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集