stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g8_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g8_metrics
Creator: stefanocarrera
Published: 2026-04-24 23:41:54
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g8_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 249902 num_examples: 164 download_size: 103806 dataset_size: 249902 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g8_metrics，其构建过程融合了代码生成与多维质量评估技术。首先，基于autophagycode数据集的训练子集，利用Qwen3-4B模型在策略scm、温度参数t0.2及8次生成（g8）的设置下产生候选代码。随后，通过执行测试用例，系统性地收集了每个样本的通过测试数、失败测试数、执行时间及错误类型等运行时指标。此外，还借助Halstead复杂度、圈复杂度、可维护性指数以及香农熵等静态代码度量工具，对生成代码的结构属性进行了全面剖析。最终，该数据集以164个样本、约250KB的规模呈现，为评估代码生成模型的行为与质量提供了结构化基础。

使用方法

使用该数据集时，用户可将其加载为Hugging Face的Dataset对象，通过config_name='default'和split='train'访问全部164个样本。每个样本包含了从任务标识（task_id）到各项复杂度与正确性指标的完整字段，适用于进行代码生成模型的质量基准测试、复杂度与正确性关联分析、以及代码风格评估等研究。例如，研究者可利用halstead_volume与cyclomatic_complexity字段构建预测模型，探究代码结构复杂度对执行正确性的影响；或利用shannon_entropy与TTR分析生成代码的重复模式。数据集的标准化格式确保了与现有机器学习工作流的无缝集成。

背景与挑战

背景概述

该数据集由 autophagycode 团队与 mercury 项目联合创建，基于 Qwen3-4B 模型在策略采样（strategy_scm）设置下生成，聚焦于代码生成任务的自动化评估。数据集包含来自代码基准的 164 个训练样本，记录了任务标识、入口函数、可执行性、正确性、测试通过/失败数量、运行时间等多维指标，并深入整合了 Halstead 复杂度度量、圈复杂度、可维护性指数、香农熵等代码质量特征。其核心研究问题在于如何利用大语言模型生成的代码进行系统性质量评估，揭示模型输出在语法、语义及可维护性层面的表现。该数据集为代码智能领域提供了细粒度分析工具，有助于推动自动代码修复、代码生成评估及模型改进策略的研究，对理解大语言模型在编程任务中的能力边界具有重要参考价值。

当前挑战

数据集所解决的领域问题包括代码生成质量评估中的多维指标整合挑战：传统评估仅依赖功能正确性，忽略了代码的可读性、复杂度和可维护性，该数据集通过 Halstead 和圈复杂度等度量实现了更全面的刻画。构建过程中面临的挑战在于样本数量有限（仅 164 条），可能不足以覆盖复杂编程场景的多样性；同时，错误类型与重复入口点的记录揭示了模型输出存在结构性问题，如不完整代码或重复定义，这些噪声需要精细的清洗与标注。此外，测试运行时间的缺失值增加了时序分析的难度，而 token 字典的存储格式复杂，阻碍了高效的序列化处理。

常用场景

经典使用场景

在代码智能与软件工程领域，该数据集作为后训练阶段代码生成模型的评估与优化基准，承载着衡量模型在功能性正确性、代码质量与复杂度等多维指标上的卓越效能。其经典使用场景在于通过包含Halstead复杂度、圈复杂度、维护性指数、香农熵等丰富代码度量特征，对模型生成的Python代码片段进行细粒度的量化剖析，从而甄别模型是否在满足功能需求的同时，产出了结构化清晰、易于维护且复杂度合理的代码。这不仅为模型微调提供了精准的反馈信号，更推动了从单纯追求功能正确向兼顾代码优雅性与可读性的研究范式转变。

解决学术问题

该数据集精准解决了学术界长期以来在代码生成评估中过度依赖功能正确性（如测试通过率）而忽视代码内部质量的问题。传统评估方法难以量化代码的认知复杂度与维护成本，而本数据集通过引入Halstead系列指标、圈复杂度、香农熵及词元多样性（TTR）等，为研究者提供了从词汇、结构到信息论层面的全景式代码质量视图。其意义在于，使得研究者能够系统探究模型生成代码的语义密度、逻辑缠绕程度与可维护性之间的内在关联，揭示了高复杂度代码在长期维护中的潜在风险，为构建更稳健、更贴近工业标准的代码生成系统奠定了方法论基础。

实际应用

在实际应用层面，该数据集可无缝融入企业级代码审查与持续集成流程中。开发团队能够利用其丰富的质量度量特征，自动筛选出模型生成代码中潜在的高风险片段（如圈复杂度异常偏高或维护性指数过低的部分），从而优先安排人工复审，降低技术债务累积。此外，该数据集亦可作为编程教育平台中的辅助诊断工具，通过分析学生提交代码的Halstead时间与词汇多样性指标，智能定位用户编码习惯中的低效模式，并提供针对性优化建议，实现了从学术评估到工程实践与教育支撑的跨场景价值延伸。

数据集最近研究