stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics
Creator: stefanocarrera
Published: 2026-04-25 05:05:00
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 232988 num_examples: 164 download_size: 100383 dataset_size: 232988 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics，专为代码自动修复与程序分析任务设计。其构建基于Qwen3-4B模型在trust策略下的推理输出，通过执行单元测试对代码修复结果进行验证，筛选出包含正确与错误案例的样本。每条数据记录了任务标识、入口函数、执行状态、测试通过数与失败数，并系统性地提取了代码的Halstead复杂度指标、圈复杂度、可维护性指数、代码行数、注释占比、词汇丰富度及信息熵等多维度软件度量特征，从而构建了一个兼顾执行结果与静态分析的复合评价体系。

特点

数据集的核心特点在于深度融合了动态执行反馈与静态代码度量。一方面，通过执行结果字段（如is_correct、tests_passed、tests_failed）直观反映模型修复的正确性；另一方面，引入了Halstead系列指标、圈复杂度、香农熵及预测熵等量化特征，能够细致刻画代码的复杂度、可读性与信息不确定性。此外，数据集还包含代码重复性检测（entry_point_repeated）、函数定义统计（n_func_defined）等字段，为研究代码生成质量与模型行为提供了丰富而精细的分析维度。

使用方法

本数据集适用于监督学习与多任务分析场景。用户可直接加载train分片中的164条样本，利用task_id和entry_point作为任务标识，以is_correct为目标变量训练代码正确性分类模型，或结合tests_passed与tests_failed进行回归分析。对于代码质量评估，则可选取Halstead指标、圈复杂度及可维护性指数作为特征，构建代码复杂度预测或质量排序系统。数据集以标准Parquet格式存储，兼容HuggingFace Datasets库，支持通过load_dataset快速加载，并允许用户根据特定字段进行过滤或切片，便于进行定制化实验与模型评估。

背景与挑战

背景概述

该数据集由 autophagycode 团队于近期构建，旨在剖析大语言模型（LLM）在代码生成任务中的行为特性与代码质量指标。核心研究聚焦于通过多维度代码度量（如 Halstead 复杂度、圈复杂度、维护性指数、Shannon 熵等）评估模型输出的可维护性与正确性，探索 LLM 在自动化编程中的可信度与鲁棒性。数据集以 Qwen3-4B 模型在 trust 策略下的生成为基底，覆盖 164 个训练样本，为理解代码生成中的认知不确定性、冗余性与结构缺陷提供了量化分析框架，对推动 LLM 在软件工程领域的可靠应用具有奠基性意义。

当前挑战

当前主要挑战在于：1) 领域问题层面，LLM 生成的代码常面临逻辑正确性与代码质量脱节的问题，如低维护性指数、高圈复杂度导致的认知负荷，需建立统一的多维度质量评估标准以替代单一执行测试；2) 构建过程中，代码度量指标（如 Halstead 耗时、预测熵）的收敛性不足，样本量仅 164 条，难以覆盖复杂代码模式的长尾分布，且 token 序列的 Shannon 熵与执行正确性之间的关联机制尚未厘清，增加了从静态特征预测动态行为的难度。

常用场景

经典使用场景

该数据集聚焦于代码生成与执行质量的联合评估，经典使用场景是面向编程任务中模型输出代码的功能正确性与软件度量分析。数据集在结构上精心设计了从可执行性、测试通过率到运行时性能的多维标注，并融合了静态代码分析指标，如圈复杂度、Halstead复杂度及可维护性指数，为评估代码的语义正确性、结构健壮性和可读性提供了坚实基础。研究者常借此构建代码质量预测模型或检验代码生成算法在真实执行环境下的表现，从而实现对生成代码的全面诊断。

衍生相关工作

基于该数据集，研究者已衍生出若干经典工作方向。例如，利用Halstead与圈复杂度特征训练代码质量回归模型，实现了对生成代码可维护性指数的精准预测；另一方向则通过TTR（类型-令牌比率）和香农熵等特征，探索代码表述的富集度与正确性之间的关联规律。此外，跨模型的代码生成一致性研究也借助该数据集的多维度量，比较不同策略下（如信任阈值调整）产生的代码在结构复杂度和执行正确性方面的差异，为代码策略优化提供了实证依据。

数据集最近研究