stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g5
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g5
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 18611
num_examples: 164
download_size: 16774
dataset_size: 18611
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen3-14B模型,在特定学习率(lr=0.0001)与训练策略(scm_g5)下,针对代码生成任务进行微调后构建而成。数据集收集了164个训练样本,每个样本均包含任务标识、入口函数、执行状态、测试通过数与失败数、错误类型等基础字段,并进一步纳入了Halstead度量体系中的词汇量、长度、体积、难度与工作量,以及可维护性指数和函数定义数量等代码质量指标,形成多维度的执行与静态分析特征集合。
特点
数据集的核心特点在于融合了代码执行的动态结果与软件工程中的静态度量指标,提供了从可执行性、正确性到代码复杂度的全方位评估视角。通过记录测试通过/失败数、运行时间及错误类型,可直观反映生成代码的功能正确性;而Halstead度量与可维护性指数则揭示了代码的结构复杂度与可维护性水平,有助于深入剖析模型生成代码的优劣。此外,入口函数是否重复的标记为进一步分析模型输出多样性提供了依据。
使用方法
该数据集适用于代码生成模型的性能评估与调试,尤其在分析模型输出代码的可执行性、正确性与代码质量方面具有重要价值。用户可按任务ID或入口函数进行样本筛选,利用测试通过/失败数快速评估代码功能性,并通过Halstead度量与可维护性指数量化代码的复杂度与可维护性。同时,错误类型字段可用于分类统计常见错误模式,辅助模型改进。数据集仅含训练拆分,可直接加载使用。
背景与挑战
背景概述
该数据集由 autophagycode 研究团队基于 Qwen3-14B 模型在特定超参数设置(学习率 0.0001,scm_g5 配置)下生成,创建于近期,聚焦于代码生成任务的自动化评估与度量。核心研究问题在于如何系统性地衡量大语言模型生成代码的正确性、执行效率及可维护性,从而推动代码智能领域的量化进展。通过引入 Halstead 复杂度指标(如词汇量、长度、体积、难度与工作量)以及维护性指数等软件工程标准,数据集为评估模型输出质量提供了多维度的结构化视角。其影响力体现在为代码生成领域的标准化评测提供了可复现的基准,有助于社区更深入地理解模型能力边界。
当前挑战
当前该数据集面临两大核心挑战。领域问题层面,代码生成评估长期受困于浅层正确性指标(如简单通过率)的局限性,难以捕捉代码的鲁棒性、可读性及维护成本,而本数据集试图通过 Halstead 系列指标与维护性指数解决这一痛点,但如何将这些指标与真实开发场景中的代码质量建立有效映射仍是难题。构建过程中,数据集仅包含 164 条训练样本,规模较小且覆盖的任务类型有限(以 task_id 区分),可能不足以支撑泛化能力评估;同时,需要确保不同任务间代码复杂度指标的对比公平性,避免因任务本身差异导致指标偏差。此外,执行时间(test_run_time_ms)字段为空,提示运行时数据缺失,限制了模型效率维度的全面分析。
常用场景
经典使用场景
该数据集聚焦于代码生成模型的自动化评估与质量度量任务,尤其适用于Qwen3-14B等大型语言模型在编程题上的性能评测。研究者可通过任务标识符、可执行性标志与测试通过率等字段,系统性地分析模型生成代码的功能正确性;同时借助Halstead复杂度指标与维护性指数,从软件工程角度量化代码的可读性与维护难度,从而实现对模型输出质量的全面诊断。
解决学术问题
该数据集有效解决了代码生成领域长期存在的评估维度单一化问题。传统评测往往仅依赖功能测试通过与否,难以刻画代码的质量全貌。本数据集通过融合测试执行结果与Halstead复杂度、维护性指数等软件度量学指标,为学术界提供了一种兼顾功能正确性与代码健壮性的多元评估范式,推动了代码智能生成技术向更贴近工业级软件工程标准的方向演进。
衍生相关工作
该数据集的框架设计已衍生出一系列深层次研究,例如基于错误类型分布的模型能力靶向分析与跨模型性能对比;Halstead度量指标与维护性指数的联合分析激发了关于代码生成模型可解释性的工作;而测试通过率与复杂度之间的权衡关系,则被后续研究用于构建代码质量预测模型,探索大语言模型在软件工程中的稳健应用边界。
以上内容由遇见数据集搜集并总结生成



