stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g10_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g10_metrics
Creator: stefanocarrera
Published: 2026-04-25 11:49:13
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g10_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 231433 num_examples: 164 download_size: 98528 dataset_size: 231433 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

本数据集构建于代码生成与评估的自动化流程之上，依托大语言模型Qwen3-4B在特定策略配置下产生的代码输出。数据集以HuggingFace标准格式组织，包含单一训练分割（train），共计164条样本，存储规模约231KB。每条样本全面记录了代码执行的验证信息，包括任务标识符、代码入口点、执行正确性、测试通过失败计数及运行时错误类型。此外，数据集中系统性地纳入了多种软件度量指标，如Halstead复杂度、圈复杂度、可维护性指数、代码行数、注释比例及香农熵等，这些特征通过静态分析工具自动从代码中提取，构成了对生成代码质量的多维度量化评估。

使用方法

该数据集可直接用于训练和评估面向代码生成的语言模型，尤其适用于强化学习场景中的代码质量反馈环节。用户可通过HuggingFace的datasets库加载数据：`load_dataset('autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g10_metrics')`。数据集仅包含'train'分割，每条样本的字段可直接用于监督学习或作为奖励建模的特征输入。研究者可利用其中的正确性标签（is_correct）进行二元分类任务，或利用连续性度量（如Halstead时间、Shannon熵）开展回归分析。建议在使用时将任务标识符（task_id）作为分组依据，以支持跨任务的泛化性研究，并重点关注错误类型（error_type）与代码复杂度之间的潜在关联。

背景与挑战

背景概述

该数据集由 autophagycode 团队于近期构建，旨在评估大语言模型（如 Qwen3-4B）在代码生成任务中的可信度与质量。核心研究问题聚焦于如何通过结构化指标量化模型生成代码的可执行性、正确性及复杂度，从而推动可信赖人工智能在自动化编程领域的发展。数据集以 164 个训练样本为基础，涵盖了任务标识、可执行状态、测试通过率、Halstead 复杂度、圈复杂度及维护性指数等多维特征，为代码生成系统的鲁棒性评估提供了精细化的基准。其影响力体现在为代码智能领域引入了兼具可操作性与可解释性的评测框架，弥补了传统语义指标在刻画代码安全性、可维护性及执行效能方面的不足。

当前挑战

当前面临的挑战集中于两大层面。在领域问题层面，尽管数据集追踪了代码执行结果与语法复杂度，但如何精准界定‘信任’阈值仍属难题——模型生成的高复杂度代码可能通过测试但隐含性能瓶颈或安全漏洞，现有指标尚难完全捕捉此类动态风险。在构建过程中，特征提取依赖静态分析工具（如 Halstead 度量与圈复杂度计算）对短小代码片段的敏感度差异显著，且 164 个样本的规模限制了跨领域泛化能力的评估。此外，测试环境的一致性维护（如执行时限、依赖库版本）以及错误类型的细粒度分类（如运行时异常与逻辑错误混同）进一步增加了数据标注的复杂性。

常用场景

经典使用场景

该数据集聚焦于代码生成与程序合成领域，经典使用场景在于评估和优化大语言模型（如Qwen3-4B）在自动化编程任务中的代码质量与执行可靠性。研究者常利用其中的任务标识、入口函数及执行测试结果字段，构建从自然语言描述到可执行代码的映射评测基准，尤其关注代码的语法正确性、测试通过率以及运行时行为。通过对Halstead复杂度指标、圈复杂度和可维护性指数的分析，该数据集为探究代码的结构化属性与功能正确性之间的关联提供了细腻的量化视角。

解决学术问题

该数据集有效解决了代码智能领域中长期存在的两个关键学术问题：一是如何系统性地评估生成代码的多维度质量，而非仅依赖单一的通过率；二是如何在细粒度层面揭示代码复杂度与正确性之间的非线性关系。通过引入Halstead度量、香农熵、注释比例及词汇多样性指标，研究者得以超越传统黑盒测试，深入理解代码的认知负荷、逻辑密度与可读性对执行结果的影响。这不仅推动了代码自动评估方法的演进，也为构建更鲁棒、更贴近人类编程习惯的代码生成系统奠定了实证基础。

实际应用

在实际工程应用中，该数据集可辅助构建智能编程辅助系统的质量监控模块。软件企业可基于其中的测试结果与复杂度特征，自动筛选出存在高维护风险或潜在缺陷的生成代码，从而提升代码审查效率与软件可靠性。例如，在持续集成流水线中，通过分析圈复杂度和可维护性指数，团队能快速定位需要人工干预的代码片段，降低因自动化生成代码引入的技术债务。此外，该数据集的入口点重复检测与错误类型标注还可用于训练代码修复模型，优化开发人员的工作流程。

数据集最近研究