stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 19656
num_examples: 164
download_size: 16557
dataset_size: 19656
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen3-0.6B模型在特定学习率(0.0001)下对代码生成任务进行微调后所获得的评估结果构建而成。数据集的构建流程首先从编程任务中抽取唯一的task_id与入口函数entry_point,随后对模型生成的代码实施可执行性判断及正确性校验。通过统计测试通过数(tests_passed)与失败数(tests_failed)来量化代码质量,并记录错误类型(error_type)以剖析失败根源。进一步地,利用Halstead复杂度指标(包括词汇量、长度、容量、难度及工作量)和可维护性指数(maintainability_index)对代码的静态属性进行度量,同时纳入函数定义数量(n_func_defined)与入口点重复性(entry_point_repeated)等结构特征,形成多维度评价体系。
特点
数据集的核心特点在于其多粒度、多维度的代码评估指标体系。它不仅涵盖了传统二元正确性标签(is_correct),还提供了细粒度的测试通过率及运行时信息,赋予了使用者从功能正确性到性能表现的全面视角。尤为突出的是,数据集引入了软件工程中经典的Halstead度量与可维护性指数,使得对代码的复杂性、理解难度及维护成本能够进行量化分析。此外,错误类型的显式记录为诊断模型失败模式提供了结构化线索。数据集规模适中(164条样本),每条样本包含16个字段,兼顾了信息丰富度与可操作性,适用于小样本下的模型行为剖析与质量评估研究。
使用方法
数据集以HuggingFace Datasets格式存储,仅包含一个训练划分(train split),共164条样本,数据文件采用parquet格式存放于data/train-*路径下。用户可通过HuggingFace的datasets库直接加载,例如使用load_dataset('autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g6')命令获取数据。适用于多种下游任务:可基于is_correct与tests_passed字段进行代码正确性分类或回归分析,亦可利用Halstead指标与可维护性指数作为特征,探究代码质量与模型生成策略之间的关联。研究者还可通过error_type字段筛选特定错误模式,开展针对性的模型改进实验。数据集的所有字段均为预处理后的数值或字符串类型,无需额外清洗即可直接用于机器学习管线。
背景与挑战
背景概述
该数据集由自噬研究团队于近期创建,旨在评估Qwen3-0.6B模型在自动化代码生成任务中的性能表现。核心研究问题聚焦于如何通过精细化的软件度量指标(如Halstead复杂度与可维护性指数)量化模型生成代码的质量与正确性。数据集包含164个训练样本,覆盖代码可执行性、测试通过率及运行时错误等维度,为探究小型语言模型在编程领域的泛化能力提供了标准化测评基准。其影响力体现在推动代码智能评估从单一正确性向多维度质量度量演进,对自动化软件工程与低资源模型优化具有重要参考价值。
当前挑战
所解决的领域问题在于代码生成评估长期依赖功能正确性指标,忽视了代码可维护性与复杂度等工程特性。该数据集通过引入Halstead度量与维护性指数,揭示了模型输出在工程简洁性上的不足,但164个样本的规模限制了统计显著性,且缺乏覆盖多语言与长序列的测试集。构建过程中面临的核心挑战包括:自动化测试环境与运行时错误的稳健捕获,以及从原始代码中精确提取Halstead词汇、长度等元数据时,对解析器鲁棒性的高要求。此外,错误类型分类的粒度与可维护性指数的跨场景校准仍需人工干预,增加了数据标注成本。
常用场景
经典使用场景
在代码生成与自动程序修复领域,该数据集为评估大型语言模型生成的代码质量提供了量化基石。其核心结构不仅记录了模型输出在测试集上的通过率与失败率,还萃取了Halstead复杂度系列指标(如词汇量、长度、难度与工作量)以及软件可维护性指数,使得研究者可以从功能性正确性与代码内在质量双重维度剖析生成代码的优劣。经典用法在于以任务ID为锚点,关联入口函数与执行状态,从而系统性地对比不同模型或超参数配置下的代码生成性能。
衍生相关工作
基于该数据集的衡量框架,学术界已衍生了数类关键工作:其一为多目标代码优化研究,将功能性通过率与Halstead难度、工作量等指标共同纳入损失函数,训练同时满足正确与简洁的生成模型;其二为模型可解释性分析,通过分析不同错误类型下代码复杂度的分布差异,揭示大模型在逻辑推理与结构组织上的能力边界;其三为自动化缺陷定位方法,利用测试失败率与入口函数特征构建错误传播图谱,从而派生出一系列面向代码生成的鲁棒性增强策略。
数据集最近研究
最新研究方向
当前,自噬相关代码质量度量研究正与大型语言模型的代码生成能力深度融合,该数据集聚焦于Qwen3-0.6B模型在代码生成任务中产生的输出质量,通过整合Halstead复杂度指标(如词汇量、长度、体积、难度和努力度)与可维护性指数,为评估模型生成代码的结构化复杂度与可维护性提供了量化基准。结合最近代码智能领域对模型输出可执行性与正确性的关注,该数据集引入的任务执行状态、测试通过/失败计数及错误类型等指标,使得研究者能够深入剖析语言模型在代码合成中的逻辑正确性与鲁棒性边界。这一方向不仅推动了代码生成模型从单纯的功能正确性评估向代码质量多维分析的跃迁,还为构建更可靠、更易维护的自动化编程助手奠定了实验基础,对提升AI辅助软件工程的实践效能具有关键意义。
以上内容由遇见数据集搜集并总结生成



