stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 18607
num_examples: 164
download_size: 16797
dataset_size: 18607
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集源自对Qwen3-14B模型在自动化代码生成任务中的系统性评估与量化分析。构建过程中,研究者首先设定了包含特定任务标识与函数入口点的代码生成基准,随后通过执行测试脚本判定生成代码的可执行性、正确性以及通过/失败的测试用例数量。在此基础上,数据集融入了基于Halstead复杂度的多项软件度量指标,如词汇量、长度、体积、难度及工作量,同时纳入了可维护性指数与函数定义计数等结构化特征,从而形成了一套多维度、细粒度的代码质量评价体系。
使用方法
该数据集适用于代码生成模型的性能评估、错误类型诊断以及软件质量预测等研究场景。使用者可通过加载训练分片,利用task_id和entry_point字段进行样本索引,并结合is_correct与tests_passed等二值或数值型标签,构建分类或回归模型。同时,Halstead指标与maintainability_index特征可被用作独立变量,以探索生成代码的复杂性对模型表现的影响,亦可借助error_type字段开展针对性的错误模式分析与模型改进策略研究。
背景与挑战
背景概述
autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g4数据集由研究团队于近期创建,旨在系统评估大语言模型(如Qwen3-14B)在代码生成任务中的表现。该数据集聚焦于自动化代码生成的质量与软件工程度量,核心研究问题在于如何利用软件度量指标(如Halstead复杂度、可维护性指数)量化模型生成代码的可靠性、可读性与执行正确性。结合当前人工智能辅助编程的快速发展,该数据集为理解大模型在代码生成失误模式、代码质量分布以及测试通过情况等方面提供了关键的基准资源,对推动智能代码生成技术的落地与评估具有重要影响力。
当前挑战
该数据集所应对的领域挑战主要在于:代码生成模型往往只关注语法正确性,却忽略代码的语义质量与可维护性,而该数据集通过引入Halstead度量与可维护性指数等指标,试图量化并解决这一深层问题。在构建过程中,挑战包括:如何准确采集Qwen3-14B模型在不同编程任务下的输出,并统一执行环境以确保测试结果可复现;同时,需要设计合理的度量计算流程,以处理多类型错误(如编译错误、运行时失败)并保证度量值的有效性,此外还需解决样本量较小(仅164条)导致的评估偏差问题。
常用场景
经典使用场景
该数据集聚焦于大语言模型在自动化代码生成任务中的质量评估,经典使用场景为对模型生成的代码进行多维度的静态与动态分析。通过记录代码的可执行性、正确性、测试通过率与失败数,以及运行时间等动态指标,结合Halstead复杂度系列指标(如词汇量、长度、难度、工作量)与可维护性指数,研究者能够系统性地剖析生成代码的软件工程特质。该数据集特别适用于对比不同模型或不同超参数(如学习率、生成策略)下代码的鲁棒性与效率,为代码智能领域的模型调优提供量化基准。
解决学术问题
该数据集有效解决了大语言模型生成代码的客观质量难以评估的学术难题。传统上,代码生成模型多依赖自动评测指标(如BLEU、CodeBLEU)评估表面相似性,忽略了代码的实际可执行性与内在质量。此数据集引入Halstead复杂度与可维护性指数等软件度量学指标,使研究者能深入剖析生成代码的结构复杂度与维护代价,从而推动从“生成是否相似”到“生成是否可用”的评估范式转变。其意义在于为代码生成模型的学术对比提供了更严谨、更具工程意义的评估框架。
实际应用
在实际应用中,该数据集可直接服务于自动化代码审查与辅助编程工具的质量监控。例如,开发者可利用其度量标准筛选出低质量或高维护成本的生成代码,从而优化代码建议系统的反馈机制;在持续集成流程中,该数据集的指标可用于实时评估模型生成补丁的健壮性。此外,基于这些多维质量指标,可构建预测模型,在代码生成阶段提前预警潜在缺陷,有效降低人工审查负担,提升软件工程自动化水平。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型(如Qwen3-14B)在代码生成任务上的执行正确性、测试通过率与代码质量可维护性之间的关联分析。当前前沿研究方向已从单纯追求代码功能正确转向同时关注代码的静态复杂度指标(如Halstead度量与可维护性指数),旨在通过多维评估范式揭示模型生成代码的内在质量规律。这一方向顺应了AI辅助编程从“能跑”到“好维护”的演进需求,尤其在工业级应用中具有里程碑意义,为优化模型训练策略、提升生成代码的工程健壮性提供了数据驱动的实证基础。
以上内容由遇见数据集搜集并总结生成



