stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 19640
num_examples: 164
download_size: 16643
dataset_size: 19640
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称:task_id(任务ID),数据类型:string(字符串)
- 名称:entry_point(入口点),数据类型:string(字符串)
- 名称:is_executable(可执行性标识),数据类型:bool(布尔值)
- 名称:is_correct(正确性标识),数据类型:bool(布尔值)
- 名称:tests_passed(通过测试数),数据类型:int64(64位整数)
- 名称:tests_failed(失败测试数),数据类型:int64(64位整数)
- 名称:test_run_time_ms(测试运行时长(毫秒)),数据类型:null(空值)
- 名称:error_type(错误类型),数据类型:string(字符串)
- 名称:halstead_vocabulary(霍尔斯泰德词汇量(Halstead Vocabulary)),数据类型:int64(64位整数)
- 名称:halstead_length(霍尔斯泰德长度(Halstead Length)),数据类型:int64(64位整数)
- 名称:halstead_volume(霍尔斯泰德体积(Halstead Volume)),数据类型:float64(双精度浮点数)
- 名称:halstead_difficulty(霍尔斯泰德难度(Halstead Difficulty)),数据类型:float64(双精度浮点数)
- 名称:halstead_effort(霍尔斯泰德工作量(Halstead Effort)),数据类型:float64(双精度浮点数)
- 名称:maintainability_index(可维护性指数),数据类型:float64(双精度浮点数)
- 名称:n_func_defined(定义函数数量),数据类型:int64(64位整数)
- 名称:entry_point_repeated(入口点重复标识),数据类型:bool(布尔值)
数据划分:
- 划分名称:train(训练集),字节数:19640,样本数:164
下载大小:16643,数据集总大小:19640
配置项:
- 配置名称:default(默认配置),数据文件:
- 划分:train(训练集),文件路径:data/train-*
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于自噬代码(autophagycode)项目构建,聚焦于对Qwen3-0.6B模型在特定学习率(0.0001)和智能合约度量(scm_g10)条件下的代码生成结果进行质量评估。构建过程从模型生成的代码样本中,为每个任务记录任务标识符(task_id)、入口函数名称(entry_point)及其可执行性(is_executable)与正确性(is_correct)。进一步通过自动化测试获取通过测试数(tests_passed)、失败测试数(tests_failed)以及错误类型(error_type),同时利用代码度量工具提取Halstead复杂度指标(如词汇量、长度、体积、难度、工作量)和维护性指数(maintainability_index),最终形成包含164个训练样本的结构化数据集。
特点
该数据集的核心特点在于多维度融合代码功能验证与静态分析指标。除基本的执行正确性信息外,系统收集了Halstead系列度量,全面反映代码的词汇丰富度、长度、信息量及理解难度;维护性指数则从代码可维护角度提供量化评价。特别地,数据集记录了函数定义数量(n_func_defined)及入口点重复性(entry_point_repeated),有助于分析模型生成代码的结构冗余。这些特征组合使得数据集既适用于评估模型生成代码的准确率,也支持对代码复杂度、可维护性等软件工程属性的深入探究。
使用方法
本数据集以HuggingFace Datasets库标准格式存储,提供单一的train分割,包含164条记录。用户可通过datasets.load_dataset()函数直接加载,选择'default'配置即可读取所有特征列。适用于微调代码生成模型的训练验证,或作为代码质量分析的基准数据。在应用时,可将is_correct作为分类标签,或利用Halstead指标与维护性指数进行回归分析。数据集的测试运行时间(test_run_time_ms)字段为空,提示用户在性能相关分析中需注意数据缺失问题。建议结合具体研究目标,对特征进行过滤或归一化预处理。
背景与挑战
背景概述
该数据集名为autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g10,由AutophagyCode团队于大语言模型与代码生成交叉领域创建,聚焦于评估小规模语言模型(如Qwen3-0.6B)在代码自动生成任务中的表现。核心研究问题在于如何通过多维代码度量指标(Halstead复杂度、可维护性指数、测试通过率等)量化生成代码的质量与可靠性。数据集包含164个训练样本,记录了每个代码任务的功能正确性、执行效率及结构特征,为探讨模型规模与代码质量间的权衡提供了细粒度分析基础。此举填补了小型模型在代码生成领域系统性评估数据的空白,对资源受限场景下的模型选型具有重要参考价值。
当前挑战
数据集面临的挑战体现在领域问题与构建过程两方面。领域层面,小参数模型生成的代码常存在功能性错误(error_type字段)与测试不通过问题,需通过测试通过率(tests_passed/tests_failed)与执行时间综合权衡,解决代码可靠性不足的困境。构建过程中,需处理代码可执行性判定(is_executable)与入口点不匹配(entry_point_repeated)等数据清洗难点,同时确保Halstead等度量指标在不同编程任务间的可比性。此外,小规模样本(164例)限制了模型泛化能力的评估,如何在不引入偏差的前提下扩展数据集以覆盖更多编程范式,仍是亟待突破的瓶颈。
常用场景
经典使用场景
该数据集聚焦于代码生成模型的输出质量评估,核心应用场景是对大规模语言模型(如Qwen3-0.6B)生成的代码片段进行多维度指标度量。通过记录测试通过率、运行时间、错误类型等执行层信息,并结合Halstead复杂度、可维护性指数等软件工程领域经典度量元,系统性地刻画模型产出代码的功能正确性与结构质量。这一设计使得研究者能够在统一的基准下,量化评估不同参数配置或训练策略对代码生成能力的影响,从而优化模型微调过程。
实际应用
在实际工程环境中,该数据集可服务于自动化代码审查与辅助编程系统的质量监控环节。例如,当企业部署代码补全或生成工具时,可利用本数据集的度量框架对模型实时输出进行风险预警——若某轮生成代码的Halstead难度异常升高或可维护性指数骤降,则提示需人工介入或触发模型回退机制。此外,教育与竞赛场景中可借助该数据集分析不同水平学习者或参赛者的代码进化模式,将软件度量指标融入编程能力评估体系,实现从结果导向到过程质量的精细化反馈。
衍生相关工作
该数据集衍生出若干关键研究方向,包括但不限于代码复杂度与模型规模的关联性分析、基于可维护性指标的强化学习奖励函数设计、以及跨模型架构的代码质量对比基准构建。已有工作将其中的Halstead指标作为特征,训练预测代码修复成功率的分类器;后续研究进一步拓展了度量维度,将认知负荷模型与眼动追踪数据结合,探索开发者理解机器生成代码时的认知成本。这些衍生工作共同推动了‘代码可理解性’这一软性质量属性的量化研究,并催生出面向低代码平台的代码健康度自动化诊断工具链。
以上内容由遇见数据集搜集并总结生成



