stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g7
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g7
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 19689
num_examples: 164
download_size: 16649
dataset_size: 19689
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集由自噬代码(autophagycode)团队构建,针对Qwen3-0.6B模型在特定学习率(0.0001)和梯度累积步数(scm_g7)设置下的代码生成结果进行系统化度量。数据集中包含164条样本,每条样本对应一个代码任务,通过执行测试用例来评估生成代码的正确性(is_correct)与通过率(tests_passed/tests_failed),并记录执行时间(test_run_time_ms)与错误类型(error_type),同时利用Halstead复杂度指标(包括词汇量、长度、体积、难度和 effort)及可维护性指数(maintainability_index)来量化代码的结构特性。
特点
数据集的一大特色在于融入了多维度代码质量评估指标,不仅涵盖了传统的功能正确性(is_executable、is_correct),还引入了软件工程领域常用的复杂度与可维护性度量,为评估语言模型的代码生成能力提供了更丰富的视角。此外,数据集中详细记录了错误类型与测试执行耗时,有助于深入分析模型在不同场景下的表现瓶颈。每个任务均包含唯一的task_id和函数入口点(entry_point),便于追溯与复现。
使用方法
用户可直接通过HuggingFace Datasets库加载该数据集,指定配置名为default,并使用train分割进行访问。数据集适用于评估或微调代码生成模型,尤其适合分析模型在功能性正确性之外的代码质量表现。研究者可基于is_correct和tests_passed等字段构建分类或回归任务,或利用Halstead指标作为代码复杂度的代理特征,探索模型生成代码的内在结构与可维护性之间的关系。
背景与挑战
背景概述
该数据集由自噬代码(AutophagyCode)研究团队创建,基于Qwen3-0.6B模型在特定学习率与梯度累积设置下生成,旨在系统评估代码生成模型输出的质量与可执行性。核心研究问题聚焦于如何通过多维软件工程指标(如Halstead复杂度、可维护性指数)量化模型生成代码的可靠性,填补了代码智能领域缺乏细粒度执行反馈与静态分析融合数据集的空白。发布于2025年,数据集包含164条训练样本,每项均记录测试通过率、错误类型及复杂度度量,为后续代码生成模型的鲁棒性研究提供了基准参考。
当前挑战
领域层面,代码生成模型面临两大挑战:一是生成代码的语义正确性难以保证,现有指标多依赖语法匹配而忽略执行效果;二是复杂度度量与可维护性评估缺乏统一标准,导致模型优化方向模糊。构建过程中,研究者需应对测试环境异构性难题——不同运行时环境可能引发假阴性结果,同时需平衡静态分析(如Halstead指标)与动态执行反馈的权重,避免指标间冲突。此外,小样本规模限制了统计显著性,而错误类型分类的粒度不足可能掩盖关键故障模式,这些均对数据集的泛化能力构成约束。
常用场景
经典使用场景
该数据集聚焦于代码生成模型的自动化评估与质量分析,经典使用场景涵盖代码执行正确性、测试通过率以及软件复杂度指标的联合度量。研究人员可利用其丰富的字段,如tests_passed、tests_failed及Halstead复杂度系列指标,系统评估生成代码的功能完备性与结构可维护性。它尤其适合用于对比不同规模语言模型(如Qwen3-0.6B)在低学习率微调后的代码产出质量,为代码智能领域的模型选择与超参数调优提供量化基准。
衍生相关工作
基于该数据集的指标框架,衍生工作可围绕代码质量预测与模型改进展开。例如,研究人员可构建回归模型,利用halstead_difficulty和maintainability_index预测代码的可读性与维护成本;或结合error_type分布设计针对性的课程学习策略,提升模型在复杂编程任务上的泛化能力。此外,该数据集所记录的164个训练样本及其多维特征,为小样本场景下的代码质量评估基准提供了重要参考,激发后续关于评测指标标准化与跨模型可比性的探索。
数据集最近研究
最新研究方向
在当前代码智能与软件工程的前沿领域中,该数据集聚焦于轻量级语言模型(如Qwen3-0.6B)在自动代码生成任务上的执行效能与软件质量度量。通过整合Halstead复杂度指标(如词汇量、长度、工作量)与可维护性指数,研究者正深入探索模型生成代码的结构化规律与认知负载。结合热门的AI代码辅助工具(如GitHub Copilot)的可靠性争议,该数据集为评估小参数模型在有限计算资源下的代码正确性、执行效率及可维护性提供了量化基准,有助于推动低资源环境下可信代码生成技术的发展。
以上内容由遇见数据集搜集并总结生成



