stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 18551
num_examples: 164
download_size: 16666
dataset_size: 18551
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
dataset_info:
features:
- name: 任务标识符(task_id)
dtype: 字符串
- name: 入口点(entry_point)
dtype: 字符串
- name: 可执行性标记(is_executable)
dtype: 布尔值
- name: 正确性标记(is_correct)
dtype: 布尔值
- name: 通过测试数(tests_passed)
dtype: 64位整数
- name: 未通过测试数(tests_failed)
dtype: 64位整数
- name: 测试运行时长(毫秒)(test_run_time_ms)
dtype: 空值
- name: 错误类型(error_type)
dtype: 字符串
- name: 哈尔斯特德词汇量(halstead_vocabulary)
dtype: 64位整数
- name: 哈尔斯特德长度(halstead_length)
dtype: 64位整数
- name: 哈尔斯特德体积(halstead_volume)
dtype: 浮点数
- name: 哈尔斯特德难度(halstead_difficulty)
dtype: 浮点数
- name: 哈尔斯特德工作量(halstead_effort)
dtype: 浮点数
- name: 可维护性指数(maintainability_index)
dtype: 浮点数
- name: 已定义函数数量(n_func_defined)
dtype: 64位整数
- name: 入口点重复标记(entry_point_repeated)
dtype: 布尔值
splits:
- name: 训练集(train)
num_bytes: 18551
num_examples: 164
download_size: 16666
dataset_size: 18551
configs:
- config_name: 默认配置(default)
data_files:
- split: 训练集(train)
path: data/train-*
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g3,源自对大型语言模型Qwen3-14B在特定学习率(0.0001)和采样策略下的代码生成能力评估实验。构建过程中,首先让模型针对一系列编程任务生成解决方案,随后对每个生成结果进行自动编译与测试执行,记录其是否可运行、测试通过数与失败数等执行状态。同时,引入哈斯德度量(包括词汇量、长度、体积、难度与努力度)以及可维护性指数等软件复杂度指标,对代码进行静态分析,形成多维度的质量评估结构。最终将以上字段整合为结构化数据集,包含164个样本,以JSON格式存储于Hugging Face平台。
特点
本数据集最显著的特征在于融合了动态执行与静态分析的双重评估视角,每个样本不仅标注了代码的功能正确性(is_correct、tests_passed等),还详尽记录了哈斯德复杂度体系的五大指标及可维护性指数,为代码质量提供量化依据。此外,数据集包含任务标识(task_id)、函数入口点(entry_point)以及是否重复定义等信息,便于溯源与对比。样本规模精炼,仅为164条,却覆盖执行结果、错误类型及多种复杂度维度,适合用于小规模代码生成模型的性能剖析、质量度量校准或复杂度预测研究。
使用方法
用户可通过Hugging Face数据集加载接口直接调用,默认配置下仅包含训练集(train)划分。使用前需确保环境已安装datasets库,加载后每条记录为字典格式,包含task_id、entry_point、is_executable等18个字段。研究人员可基于tests_passed与tests_failed字段评估模型输出正确性,利用哈斯德指标分析代码结构复杂度,或结合maintainability_index研究可维护性。误差类型(error_type)字段可用于分类错误原因,而test_run_time_ms(目前为空)预留了运行时性能扩展。建议将数据整合至代码生成任务的后分析流程中,辅助优化模型或校验生成策略。
背景与挑战
背景概述
该数据集由自噬体研究团队于近期创建,聚焦于代码生成模型的输出评估,特别是针对Qwen3-14B模型在特定学习率(0.0001)与梯度裁剪策略下的表现。核心研究问题为如何量化代码生成结果的可执行性、正确性及软件工程指标,如Halstead复杂度与可维护性指数。通过164个样本的细粒度特征(包括测试通过失败计数、错误类型、词汇量等),该数据集为评估大语言模型在程序合成任务中的鲁棒性与代码质量提供了实证基础,对代码智能领域的自动化评估方法具有推动作用。
当前挑战
该数据集所解决的领域挑战包括代码生成模型的评估缺乏统一标准,传统准确率指标难以反映代码可执行性与质量。构建过程中面临的主要挑战为:1) 如何设计涵盖语法正确性、执行结果与软件度量(如圈复杂度)的多维评估体系;2) 数据规模较小(仅164条),可能导致模型泛化能力评估的统计偏差;3) 错误类型的自动分类与长尾错误(如运行时异常)的标注一致性难以保证;4) 测试运行时间缺失值的处理策略需权衡完整性,避免引入数据偏差。
常用场景
经典使用场景
该数据集专注于代码生成的自动化评估与代码质量量化分析,是面向大语言模型生成代码的细粒度评测资源。其核心设计围绕编程竞赛或算法题解场景,通过整合多种软件工程指标,如哈斯泰德复杂度(Halstead metrics)中的词汇量、长度、容积、难度与工作量,以及可维护性指数等,对模型产出代码进行多维度的可量化分析。数据集中每个样本包含执行正确性、测试通过率及错误类型等关键信息,为研究者提供了从功能性到结构性的全方位评测视角。这一设计使其成为检验代码生成模型在解决具体编程任务时性能表现与代码质量的理想基准,尤其适用于需要对生成代码进行可解释性评估与深度剖析的学术研究场景。
解决学术问题
该数据集有效解决了当前代码生成领域普遍存在的一个核心学术困境:仅依赖功能正确性指标难以全面反映生成代码的内在质量与维护成本。传统评估多侧重于测试用例通过率,却忽视了代码的可读性、计算效率与软工属性。此数据集通过引入哈斯泰德复杂度与可维护性指数等软件工程量化工具,使研究者能够对模型输出进行结构化分析,探究生成代码在复杂度分布、维护代价及潜在缺陷模式上的规律。其数据字段明确揭示了错误类型与测试失败之间的关联,为深入剖析大模型在代码生成中的认知边界与泛化瓶颈提供了实证基础,推动了代码生成评估体系从单一功能导向向量质并重的综合范式演进。
衍生相关工作
该数据集的发布催生了一系列围绕代码质量可解释性与生成模型可靠性评估的衍生工作。基于其提供的哈斯泰德指标与错误类型标签,研究者已开发出面向代码复杂度的可解释性分析框架,用于揭示不同规模模型在生成低熵代码时的内在偏好差异。同时,部分工作利用该数据集中的可维护性指数作为反馈信号,构建了强化学习驱动的代码生成优化管线,显著提升了模型输出在软工属性上的表现。此外,还有团队结合测试通过率与复杂度数据,设计出基于多目标优化的代码筛选算法,实现了功能性正确与代码可维护性的帕累托最优权衡,极大拓展了自动化代码评估的理论边界。
以上内容由遇见数据集搜集并总结生成



