five

stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g9

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g9
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 19656 num_examples: 164 download_size: 16677 dataset_size: 19656 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g9,属于代码生成领域的质量评估数据集。其构建基于大语言模型Qwen3-0.6B在特定学习率0.0001下生成的代码样本,结合自噬代码(autophagycode)机制的筛选流程,对每个代码样本执行了细粒度的静态与动态分析。数据集中每条记录包含任务标识符、执行入口点、代码是否可执行及正确性标志,并记录了测试通过数、失败数、运行时错误类型等执行结果。此外,还计算了Halstead复杂度指标(包括词汇量、长度、体积、难度、工作量)以及可维护性指数和函数定义数量,全面量化代码质量。数据以单一训练集形式存储,共包含164个样本。
特点
该数据集的核心特点在于融合了动态执行反馈与静态代码度量,提供了多维度代码质量评估视角。通过记录测试通过/失败数量及运行时错误类型,可直观反映代码的功能正确性;而Halstead复杂度系列指标与可维护性指数则揭示了代码的结构复杂度与可维护程度。特别地,entry_point_repeated字段用于标识同一函数是否被重复定义,有助于发现潜在命名冲突问题。数据集覆盖多种错误范式,包括执行错误与逻辑错误,适合用于分析模型生成代码的鲁棒性、可读性及执行效率。
使用方法
使用时,用户可通过HuggingFace Datasets库加载该数据集,默认配置为default,仅包含train拆分,数据以parquet格式存储于data/train-*路径下。加载后,每条记录以字典形式呈现,可直接访问字段如task_id、is_correct、halstead_volume等进行统计分析。建议研究人员结合任务标识符分组,对比不同复杂度指标与正确性之间的关联。亦可将error_type作为分类标签,训练代码错误诊断模型。需要注意的是,测试运行时间字段test_run_time_ms当前为空值,应在分析时予以排除或填充。
背景与挑战
背景概述
该数据集诞生于大语言模型代码生成能力的评估与优化浪潮中,由研究团队以Qwen3-0.6B模型为基础,在特定学习率与采样策略下构建。其核心研究问题聚焦于如何系统性地量化模型生成代码的质量、可维护性及错误类型,从而推动代码智能领域的可信评估。通过融合Halstead复杂度度量、维护性指数等软件工程指标,数据集为分析模型输出的功能性(通过/失败)与非功能性(结构复杂度)提供了多维视角。该工作对理解小型语言模型在编程任务中的行为边界、指导模型微调策略具有潜在影响力,尤其为开源社区提供了从机械执行到语义洞察的评估基准。
当前挑战
当前挑战体现在三个层面:领域问题方面,代码生成面临功能正确性与代码质量间的权衡——模型可能通过简单测试但产出低可维护性代码,现有评估体系尚未统一这两个维度;构建过程中,数据集的164个样本规模限制了统计显著性,且错误类型分布不均可能导致模型对罕见缺陷的鲁棒性评估不足。此外,Halstead指标在小型代码段上的有效性存疑,维护性指数的阈值设定也缺乏针对生成代码的校准。如何建立规模与质量兼顾的标注流程、设计跨任务的多粒度评估协议,仍是制约数据集泛化应用的难题。
常用场景
经典使用场景
该数据集专为评估和优化小规模代码生成模型而设计,经典使用场景聚焦于在参数规模受限的模型(如Qwen3-0.6B)上,结合监督式代码微调(SCM)策略,系统性地度量生成代码的可执行性、正确性及软件工程质量指标。研究者可借助其中记录的测试通过率、运行耗时和错误类型分布,探究模型在基础编程任务上的生成能力边际效益。
实际应用
在实际应用层面,该数据集可服务于嵌入式系统或边缘设备中的轻量级代码生成辅助工具,帮助开发者在有限算力下快速验证模型产出的代码片段的正确性与可维护性。例如,在低功耗物联网设备中,通过使用该数据集训练的模型能够自主生成符合工程规范的脚本程序,显著降低人工审核代码质量的成本。
衍生相关工作
该数据集衍生了若干经典研究方向,包括小模型代码生成中的测试后门缓解策略、基于Halstead度量的代码质量预测模型,以及面向低资源环境的对抗性代码生成方法。此外,围绕数据集定义的`is_executable`和`error_type`字段,研究者已发展出专门检测生成代码中运行时异常的判别式框架,为后续安全关键代码的自动化审查奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作