stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 18422
num_examples: 164
download_size: 16804
dataset_size: 18422
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10,其构建依托于大语言模型Qwen3-14B在特定超参数配置下的代码生成任务。通过对模型生成的多份代码样本进行自动化编译与测试,系统性地采集了每项任务的执行结果与质量指标。构建过程融合了静态代码分析技术,从词汇丰富度、代码长度、体积、难度、复杂度及可维护性等维度提取哈斯德特度量与可维护性指数,形成了涵盖任务标识、代码入口点、执行状态与效率、错误类型等多层次特征的精细数据集。训练集包含164个样本,整体规模紧凑,适用于代码生成模型的细粒度性能评估与调试分析。
特点
该数据集的核心特点在于将代码的功能正确性与结构质量进行深度融合分析。不仅记录了测试通过数、失败数及运行耗时等执行效能指标,还通过哈斯德特度量体系量化了代码的体积、词汇、难度与心智努力程度,并结合可维护性指数评估代码的长期可维护性。此外,数据集中包含函数定义数量与入口点重复性等元信息,为探究模型生成代码的复用模式与结构冗余提供了宝贵视角。这些多元化的度量指标使得该数据集在模型性能评估、代码质量分析及生成策略优化等研究领域具有独特价值。
使用方法
该数据集主要面向代码生成模型的开发与研究人员,可用于深入分析模型在特定任务上的代码质量表现。使用者可通过task_id与entry_point字段将生成结果与原始任务进行映射,利用is_correct与tests_passed等字段快速评估功能正确性。结合哈斯德特度量与可维护性指数,可开展代码结构复杂度、可读性与维护成本的量化研究。建议采用统计检验与回归分析等数据科学方法,探究模型超参数、任务类型与代码质量指标之间的关联规律。数据集以parquet格式存储,便于通过HuggingFace Datasets库加载进行灵活的数据探索与模型迭代优化。
背景与挑战
背景概述
该数据集名为autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g10,由相关研究人员或机构在近期创建,聚焦于代码生成与自动评估领域。其核心研究问题在于量化大语言模型(如Qwen3-14B)生成的代码质量与可维护性,通过引入Halstead复杂度指标(如词汇量、长度、体积、难度、努力度)以及可维护性指数等细粒度度量,弥补了传统仅依靠执行正确性判断的不足。该数据集对代码智能领域具有重要影响力,推动了从功能正确性到代码内在质量的多维评估范式发展,为后续代码生成模型的迭代优化提供了基准支撑。
当前挑战
该数据集面临的核心挑战包括:1)领域问题层面,现有代码生成评估往往忽视代码的软件工程属性,如可读性与可维护性,而本数据集通过引入Halstead与可维护性指数,试图解决这一评估维度缺失的问题,但指标本身对语言与任务类型的敏感性仍需验证;2)构建过程中,由于仅包含164个训练样本,数据规模有限,可能导致统计偏差与泛化能力不足;同时,metrics指标的自动计算依赖于代码解析工具的稳定性,对于复杂或包含外部依赖的代码片段可能失效,增加了数据标注的噪声风险。
常用场景
经典使用场景
该数据集聚焦于代码生成模型的自动化评测,广泛应用于评估大型语言模型在编程任务中的代码质量与执行效率。通过记录模型生成代码的测试通过率、运行时错误类型及Halstead复杂度等软件工程指标,研究者能够系统性地对比不同模型或训练策略的代码合成能力。经典使用场景包括:在算法题求解场景中衡量模型生成的函数是否正确、可执行,并通过维护性指数分析代码的长期可维护潜力。
实际应用
在实际应用中,该数据集可辅助软件工程团队自动化筛选可靠的代码生成模型,用于低代码开发平台或智能编程助手的质量验证。例如,企业可利用其中的维护性指数和错误类型分布,快速定位模型在特定任务上的薄弱环节(如高频出现的运行时错误),从而针对性调整模型参数或训练数据。此外,数据集的轻量化设计(164个样本)使其适合作为快速迭代中的预测试基准。
衍生相关工作
该数据集衍生的相关工作主要集中于代码质量预测与模型可解释性研究。受其完备的Halstead指标启发,后续工作开始探索利用复杂度特征作为正则化项,引导模型生成更易维护的代码。另一方向是结合失败测试的分布模式,建立错误类型分类器,揭示模型在不同编程范式(如递归与迭代)上的偏好。这些衍生研究共同推动了代码生成领域从粗糙的功能验证向精细化质量控制的演进。
以上内容由遇见数据集搜集并总结生成



