stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g8
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 18474
num_examples: 164
download_size: 16704
dataset_size: 18474
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen3-14B模型,在特定超参数配置(学习率0.0001、梯度累积步数8)下,通过对autophagycode代码生成任务进行推理与执行评估而构建。每条样本包含任务标识符(task_id)、入口函数(entry_point)及代码正确性标志(is_correct),并详细记录了测试通过数、失败数、运行时长及错误类型。此外,还计算了Halstead复杂度系列指标(如词汇量、长度、体积、难度与工作量)以及可维护性指数,从多维度量化生成代码的质量特征。数据集共包含164条样本,全部归入训练集。
特点
该数据集深度融合了代码功能正确性与结构复杂度两大评估维度,既通过测试通过率反映模型输出的功能完备性,又借助Halstead度量和可维护性指数揭示代码的内在结构质量。这种双轨制设计使研究者能够同时洞察生成代码的“是否能运行”与“是否可维护”两种品质。数据集还记录了运行时间与错误类型,为深度分析模型在不同错误模式或性能瓶颈下的表现提供了细粒度数据支持。
使用方法
研究者可直接加载该数据集进行模型微调或评估,重点关注task_id、entry_point及正确性指标构成的监督信号,用于提升代码生成模型的功能准确性。Halstead度量与可维护性指数则适合作为结构化正则项或辅助目标,引导模型产出更易读、更高效的代码。此外,可通过error_type字段诊断模型常见错误模式,并结合测试运行时长优化推理效率。数据集结构简洁,所有特征已在HuggingFace Datasets格式中定义,支持即取即用。
背景与挑战
背景概述
该数据集由自噬代码研究团队于近期创建,旨在评估大语言模型在自动化代码生成任务中的性能与可维护性。核心研究问题聚焦于Qwen3-14B模型在特定超参数配置(学习率0.0001、梯度裁剪等)下生成代码的准确性、执行正确性及软件工程质量指标。数据集包含164个训练样本,涵盖了任务标识、函数入口点、执行状态及Halstead复杂度度量(如词汇量、长度、难度与工作量)等维度,为探究生成代码的可靠性提供了量化工具。其影响力体现在为代码智能领域引入了一种结合功能验证与静态分析的评估范式,有助于推动面向复杂编程任务的模型优化研究。
当前挑战
该数据集面临的挑战主要体现在两方面。在领域问题层面,自动代码生成需解决生成代码的语法正确性、逻辑完备性与实际可执行性之间的鸿沟,同时确保生成的代码在可维护性上达到工业级标准。在构建过程中,数据集规模较小(仅164例)可能限制了统计显著性与模型泛化能力的分析;此外,如何平衡准确性指标(如通过测试数)与软件度量(如Halstead难度、维护性指数)的多目标评估,以及处理null值(如测试运行时间缺失)带来的数据完整性挑战,都是构建高质量基准的关键难题。
常用场景
经典使用场景
在代码智能研究领域,对大型语言模型生成的代码进行质量评估是一个至关重要的课题。该数据集聚焦于Qwen3-14B模型在特定代码生成任务上的输出结果,通过引入Halstead复杂度指标(包括词汇量、长度、体积、难度和努力度)、可维护性指数以及测试通过率等多元特征,构建了一套细粒度的代码质量评价体系。研究者可利用此数据集深入分析模型生成代码的复杂度特征与功能性正确性之间的关联,探索不同错误类型下代码度量指标的分布规律,从而为代码生成模型的性能诊断与优化提供数据支撑。这一经典使用场景为从软件工程视角审视大模型代码生成能力奠定了方法论基础。
衍生相关工作
该数据集的发布催生了若干具有启发性的后续研究方向。首先,基于其Halstead指标与功能正确性之间的关联分析,衍生出利用复杂度特征预测代码修复工作量的回归模型,开拓了代码生成模型故障预测的新视角。其次,数据集中错误类型的详细标注促使研究者构建面向大模型的错误分类法,并据此设计具有解释性的代码评价基准集。此外,受到该数据集将软件度量学与模型评估相结合这一范式的启发,学界涌现出跨模型(如Llama、CodeGemma)的复杂度对比研究,以及将可维护性指数作为奖励信号融入强化学习微调链路的探索工作,持续深化了对代码质量本质的理解。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成模型的细粒度质量评估与可维护性分析,融合了功能正确性(如测试通过率、执行状态)与软件工程度量指标(如Halstead复杂度、圈复杂度、可维护性指数),为前沿的大语言模型代码生成研究提供了多维度的评测基准。随着Qwen3-14B等先进模型在自动编程任务中的广泛应用,该数据集不仅关注代码的功能正确性,更深入探究生成代码的结构质量与人类可读性,体现了当前研究从单纯追求“通过率”向“高质量、可维护代码”的关键转变。其设计紧贴软件工程中的代码质量热点,为模型优化、少样本学习(SCM)和代码鲁棒性分析提供了数据支撑,对推动AI辅助编程工具在实际开发中的可靠落地具有重要实证意义。
以上内容由遇见数据集搜集并总结生成



