stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6_metrics
Creator: stefanocarrera
Published: 2026-04-24 21:44:54
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 248796 num_examples: 164 download_size: 103890 dataset_size: 248796 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为 autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g6_metrics，其构建方式融合了代码生成与静态分析技术。基于Qwen3-4B大语言模型，采用采样策略（strategy_scm）并设置温度为0.2，生成6组候选代码（g6）。每个代码样本均经过执行验证，记录测试通过数与失败数（tests_passed/tests_failed）、执行时间（test_run_time_ms）及错误类型（error_type），同时利用Halstead复杂度指标体系（词汇量、长度、体积、难度、工作量、时间）与圈复杂度（cyclomatic_complexity）进行量化评估。此外，还提取了可维护性指数（maintainability_index）、代码行数（loc/sloc）、注释占比（comment_percentage）、Token重复率（TTR）及香农熵（shannon_entropy），形成多维度度量矩阵。

使用方法

使用本数据集时，研究者可直接加载HuggingFace上的'train'分割数据，利用Python的datasets库进行便捷访问。典型应用场景包括：利用测试通过率与失败数评估代码生成质量；基于Halstead复杂度与圈复杂度分析代码的认知负载；通过维护性指数与注释占比量化代码的可维护性。建议采用监督学习范式，以task_id或entry_point为标识，构建代码质量预测模型。亦可结合错误类型（error_type）字段进行故障模式分析，或利用香农熵与TTR执行代码特征工程。需注意，本数据集适用于自动化代码评估与大型语言模型生成代码的质量基准研究，可直接用于模型微调或指标对比实验。

背景与挑战

背景概述

该数据集由基于Qwen3-4B模型的策略采样与代码复杂度度量工具生成，旨在探索大规模语言模型在代码生成任务中的行为特征与质量评估。数据集创建时间不详，但核心研究问题聚焦于通过多维度指标如Halstead复杂度、圈复杂度、可维护性指数等，量化模型生成代码的语法正确性、执行成功率及内在质量。数据集包含164个训练样本，每项样本记录了从词法丰富度到执行时耗的详尽信息，为理解代码生成模型的性能边界提供了结构化数据支撑，尤其对自动化代码评估与模型微调领域具有重要参考价值。

当前挑战

该数据集面临的挑战包括：1)所解决的领域问题——大规模语言模型生成的代码常存在语义错误或效率低下，传统评估依赖人工或简单测试用例，难以全面捕捉代码质量；2)构建过程中——样本量仅有164条，可能无法充分覆盖代码生成任务的多样性，且度量指标如Halstead复杂度虽经典，但对现代编程范式（如函数式或并发代码）的适用性有限；此外，数据收集依赖于特定策略采样与单一模型（Qwen3-4B），存在模型偏见与泛化能力不足的风险，测试用例设计亦可能遗漏边缘场景，影响评估的鲁棒性。

常用场景

经典使用场景

在代码智能与软件工程交叉领域，该数据集聚焦于代码生成模型的输出质量评估，尤其适用于大语言模型（如Qwen3-4B）在编程任务上的性能剖析。数据集中包含了每个代码样本的详细元数据，如任务标识符、入口函数、执行正确性、测试通过/失败数量以及运行时间等核心指标，为研究者提供了从功能正确性到执行效率的多维度评价基准。经典用法是利用这些标注信息，系统性地分析模型在不同编程任务上的成功率、错误模式以及运行时行为，从而揭示模型在代码合成过程中的优势与薄弱环节。

解决学术问题

该数据集致力于解决代码生成领域长期存在的评估碎片化问题。传统研究往往仅关注代码的语法正确性或少数预定义测试用例，而忽略了代码在复杂度、可维护性、执行效率与逻辑完备性上的综合表现。通过纳入Halstead复杂度指标、圈复杂度、可维护性指数、香农熵以及词符分布等细粒度特征，该数据集使研究者能够深入剖析模型生成代码的内部结构和质量属性。其意义在于推动学术界从单一正确性判据转向对代码质量的多维审视，为构建更可靠、优雅且高效的自动化代码生成系统提供坚实的数据基础。

实际应用

在实际开发场景中，该数据集可服务于自动化代码审查与辅助编程工具的迭代优化。开发团队可利用其中的执行结果和复杂度特征，快速识别大语言模型在特定业务逻辑或算法实现上的常见错误类型，例如边界条件处理不当或高复杂度代码片段引发性能瓶颈。此外，基于测试运行时间与内存开销等指标，该数据集能为边缘计算或资源受限环境下的模型部署提供选型参考，帮助工程师在代码质量与推理效率之间做出权衡，从而提升软件开发的整体交付质量。

数据集最近研究