stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: maintainability_index
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 19656
num_examples: 164
download_size: 16633
dataset_size: 19656
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
本数据集聚焦于代码生成模型的细粒度评估,基于Qwen3-0.6B模型在特定学习率0.0001下生成代码的测试结果构建而成。数据集中每条样本对应一道编程任务,记录了任务标识符与入口函数名称,并通过在沙箱环境中执行生成代码,获取其是否成功运行、测试用例通过数与失败数、执行耗时等关键执行指标。此外,还引入了Halstead复杂度系列指标,包括词汇量、长度、体积、难度及工作量,以刻画代码的静态属性,并纳入了可维护性指数与函数定义数量。所有指标均通过自动化脚本计算,确保了构建过程的可重复性与一致性。
特点
该数据集的核心价值在于将代码的功能正确性与软件度量学指标深度融合,为分析模型生成代码的质量提供了多维视角。其特色在于,不仅记录了传统的正确性判断(如is_correct字段),还细粒度地量化了测试通过比例与失败原因,同时兼容错误类型的记录。尤为突出的是,Halstead指标与可维护性指数的引入,使得研究者能够超越二元正确性,从代码复杂度、阅读与维护成本等软件工程角度评估生成质量。数据集包含164个训练样本,规模精炼但维度丰富,适合作为细粒度代码评估研究的基准。
使用方法
本数据集可从HuggingFace平台直接下载,支持通过Datasets库加载default配置下的训练集。每条数据以结构化字典形式提供,可直接用于Python数据分析或机器学习流水线。研究者在进行模型评估时,可利用is_correct与tests_passed字段衡量功能正确性,结合halstead_volume与maintainability_index等指标剖析代码的认知复杂度。建议在使用前检查is_executable字段以过滤无效样本,并可依据error_type字段进行错误类型的分组分析。数据集结构简单,易于扩展,适用于对比不同模型或超参数下代码生成质量的系统性研究。
背景与挑战
背景概述
该数据集由自噬体代码生成领域的研究团队发布于2025年,主要研究机构可能聚焦于自动化代码质量评估与大型语言模型(如Qwen3-0.6B)的微调效果。核心问题在于量化模型生成代码的可执行性、正确性及复杂度,通过Halstead复杂度指标(如词汇量、长度、体积、难度、工作量)与可维护性指数,系统评估模型输出代码的结构化质量。数据集包含164个训练样本,涵盖任务标识、入口点、测试通过率等维度,为理解轻量级语言模型在代码生成任务中的表现提供了基准。其在代码智能与软件工程交叉领域具有显著影响力,尤其推动了代码度量驱动的模型评估方法学发展。
当前挑战
数据集解决的领域问题包括:1)代码生成任务中,模型输出常存在语法正确但逻辑错误的问题,传统基于可执行性的评估无法揭示代码的语义复杂度,需引入Halstead度量与可维护性指数来量化代码的内在结构与维护成本。2)构建过程中面临的挑战在于:仅164个样本的规模限制了统计显著性,需确保标签(如is_correct、error_type)的准确标注;此外,度量计算依赖静态分析工具,对动态语言特性(如Python的元编程)可能产生偏差;测试运行时间(test_run_time_ms)的缺失也增加了评估全貌的不完整性。
常用场景
经典使用场景
在代码生成与软件工程领域,autophagycode_D_metrics_he_Qwen3-0.6B_lr0.0001_scm_g5数据集为评估代码质量与模型生成能力提供了关键的量化基准。该数据集包含任务标识、函数入口点、执行正确性、测试通过率以及Halstead复杂度等多维度指标,广泛用于衡量代码生成模型的输出是否具备可执行性、正确性和良好的可维护性。研究者可基于该数据集对模型在代码逻辑完整性、语法正确性及测试覆盖率方面的表现进行系统评测。
实际应用
在实际应用中,该数据集可用于自动化代码审核系统,帮助开发者快速识别模型生成代码中的潜在错误、复杂度异常和可维护性风险。此外,它还能辅助在线编程教育平台对学习者提交的代码进行多维度评分,提供超越传统二元正确性判断的精细反馈。在持续集成/持续部署(CI/CD)流水线中,该数据集亦能作为模型质量监控的基准,确保部署的代码生成服务保持稳健。
衍生相关工作
该数据集的构建思路与评估框架已催生了一系列后续研究,包括针对不同规模语言模型的代码生成能力对比分析、结合Halstead复杂度的代码优化策略探索,以及基于可维护性指数的代码重构建议系统。此外,数据集中引入的多维度指标也为代码生成领域的学术会议(如ACL、EMNLP、ICSE)提供了新的评测范式,促使研究者关注代码的正确性与软件工程质量之间的平衡。
以上内容由遇见数据集搜集并总结生成



