stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8

Name: stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8
Creator: stefanocarrera
Published: 2026-04-10 15:27:22
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 19652 num_examples: 164 download_size: 16704 dataset_size: 19652 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8，旨在评估大语言模型在自动化代码生成任务中的性能。数据集的构建依托于自噬代码（autophagycode）范式，通过对Qwen3-0.6B模型在特定学习率（0.0001）和梯度累积步数（scm_g8）条件下生成的代码样本进行系统性度量。每条数据包含任务标识、入口函数、可执行性标志、正确性标签以及测试通过/失败数量等执行结果信息，同时纳入了Halstead复杂度指标（词汇量、长度、体积、难度、工作量）和可维护性指数，并记录了函数定义数量与入口点的重复情况。数据集共包含164个训练样本，以结构化格式存储，便于后续分析与模型迭代。

使用方法

使用该数据集时，用户可直接从HuggingFace加载训练集split，每条记录均以JSON格式包含完整的特征字段。研究者可基于tests_passed与tests_failed计算代码的功能正确率，或利用Halstead指标和可维护性指数评估生成代码的复杂度与可读性。通过分析error_type字段，可为模型输出中常见错误进行分类与诊断。此外，entry_point_repeated与n_func_defined字段有助于探究模型中函数定义的重复模式。该数据集适用于对比不同超参数配置下模型生成代码的质量，或作为微调过程中实时监控模型性能的验证集。

背景与挑战

背景概述

该数据集由人工智能领域的研究者创建，聚焦于评估与优化小型语言模型在自动化代码生成任务中的表现。以Qwen3-0.6B模型为基础，通过特定学习率与梯度累积策略训练，数据集记录了164个代码任务实例的详细执行指标，包括代码正确性、测试通过率、执行时间及Halstead复杂度等软件度量学特征。其核心研究问题在于探索资源受限环境下轻量级模型生成可执行代码的可靠性与效率，为低算力场景下的代码生成任务提供基准评估。该数据集在推动小型语言模型实用化进程中具有参考价值，尤其针对代码质量与性能的量化分析领域。

当前挑战

面临的领域挑战在于小型语言模型在代码生成任务中平衡准确性与资源消耗的难题，现有模型常因参数规模限制导致语法错误或逻辑偏差，难以同时满足执行正确性与代码可维护性要求。构建过程中需解决自动化测试结果与多维度量指标（如Halstead参数、维护性指数）的可靠采集问题，并通过有限样本（164例）验证模型泛化能力，避免过拟合风险。此外，跨任务类型（如不同编程问题）的评估一致性及长尾测试场景的覆盖率构成了数据构建的核心挑战。

常用场景

经典使用场景

在代码智能与软件工程领域，自动化代码生成模型的评估需要多维度的度量指标。autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g8数据集以Qwen3-0.6B模型在特定超参数配置下生成的代码样本为核心，收录了包括任务标识、代码入口点、可执行性标志、正确性标签、测试通过数与失败数、执行时间以及Halstead复杂度系列指标（如词汇量、长度、体积、难度、工作量）和可维护性指数在内的丰富特征。该数据集最为经典的用途在于对轻量级代码生成模型进行细粒度的性能剖析，通过将代码的功能正确性与软件质量度量相结合，为研究者提供了从语法正确性到语义健壮性的全方位评估基准。

解决学术问题

长期以来，学术研究中代码生成模型的评价体系存在显著局限——多数工作仅关注生成代码的通过率，而忽视了其内在的可读性、复杂度与可维护性。该数据集通过引入Halstead复杂度指标体系与可维护性指数，系统性地解决了量化代码结构质量这一关键难题。它使得研究者能够深入探讨模型参数量、学习率等超参数与生成代码质量之间的关联，揭示了轻量化模型在复杂编程任务中表现优异却可能产生高维护成本代码的反直觉现象。这一突破推动了代码智能评价标准从单一的“能否运行”向“运行是否优雅”的深度进化，为构建更符合软件工程实践的模型优化目标提供了实证基础。

实际应用

在工业级软件开发的流水线中，该数据集的实际价值集中体现在自动化代码审查与辅助编程场景。利用数据集中标注的错误类型与复杂度指标，开发团队可以快速识别由自动生成代码引入的技术债务，例如通过Halstead难度与工作量阈值预警潜在的高维护成本代码模块。同时，数据集中任务入口点与测试执行结果的结构化记录，使得持续集成系统能够智能判断模型生成的代码是否满足多环境部署的兼容性要求。此外，该数据集还为低资源场景下的代码生成工具选型提供了参考——例如在内存受限的嵌入式设备中，选用参数仅0.6B的Qwen3模型生成代码时，可依据数据集的指标分布预先评估质量风险，从而优化开发效率与代码质量的平衡。

数据集最近研究