five

stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g1

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-14B_lr0.0001_scm_g1
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: maintainability_index dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 18563 num_examples: 164 download_size: 16829 dataset_size: 18563 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称:任务ID(task_id),数据类型:字符串 - 名称:入口点(entry_point),数据类型:字符串 - 名称:可执行性标记(is_executable),数据类型:布尔值 - 名称:正确性标记(is_correct),数据类型:布尔值 - 名称:通过测试数(tests_passed),数据类型:64位整数 - 名称:失败测试数(tests_failed),数据类型:64位整数 - 名称:测试运行时长(毫秒)(test_run_time_ms),数据类型:空值 - 名称:错误类型(error_type),数据类型:字符串 - 名称:哈尔斯特德词汇量(halstead_vocabulary),数据类型:64位整数 - 名称:哈尔斯特德长度(halstead_length),数据类型:64位整数 - 名称:哈尔斯特德体积(halstead_volume),数据类型:浮点型 - 名称:哈尔斯特德难度(halstead_difficulty),数据类型:浮点型 - 名称:哈尔斯特德工作量(halstead_effort),数据类型:浮点型 - 名称:可维护性指数(maintainability_index),数据类型:浮点型 - 名称:已定义函数数量(n_func_defined),数据类型:64位整数 - 名称:入口点重复标记(entry_point_repeated),数据类型:布尔值 数据划分: - 名称:训练集(train),字节占用:18563,样本数量:164 下载大小:16829 数据集总大小:18563 配置项: - 配置名称:默认配置(default),数据文件: - 数据划分:训练集,文件路径:data/train-*
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Qwen3-14B模型在代码生成任务上的推理结果构建而成,聚焦于自噬相关代码(autophagycode)的自动化评估。通过引入学习率为0.0001的超参数配置,并采用随机对照方法(scm_g1)生成代码片段,随后对每一段生成结果执行多维度度量采集。数据集包含164个训练样本,每个样本记录了任务标识、函数入口点、可执行性标记、正确性判断、通过/失败的测试用例数量以及执行耗时等基础属性,同时融合了Halstead复杂度指标(词汇量、长度、体积、难度、努力度)与可维护性指数,形成了一套系统化的代码质量评估体系。
特点
本数据集的显著优势在于其将代码功能正确性与软件度量学指标有机整合,实现了对生成代码的全面量化分析。除了常规的测试通过率与错误类型记录外,还纳入了Halstead复杂度系列与可维护性指数等成熟软件工程度量,能够从语法结构、逻辑密度与维护成本等多维度揭示模型生成代码的内在特征。此外,数据集专门设计了函数定义数量与入口点重复性标记,为评估代码模块化程度与语义对齐质量提供了独特视角,尤其适合用于研究大型语言模型在生物信息学或特定领域编程场景下的输出特性。
使用方法
该数据集可直接用于代码生成模型的细粒度性能评估与对比研究。用户可通过训练集(共164条记录)中的任务标识与入口点完成代码片段定位,利用可执行性、正确性及测试通过率等字段进行功能验证;结合Halstead指标与可维护性指数可进一步开展代码复杂度与可读性的统计分析。推荐将本数据集作为基准,对比不同模型版本或超参数配置下的生成质量,亦可用于训练代码质量预测模型或构建自动化代码评审系统的评估基准。
背景与挑战
背景概述
该数据集由Qwen团队基于Qwen3-14B模型在特定超参数(学习率0.0001、余弦调度策略)下生成,聚焦于代码生成任务的质量评估与自动化度量。创建于2025年,核心研究问题在于探究大语言模型生成代码的可执行性、正确性及软件工程属性间的关联,以推动AI辅助编程的可信度评估。数据集包含164个训练样本,记录了任务标识、入口点、可执行状态、测试通过/失败数及Halstead复杂度、可维护性指数等软件度量指标,为理解模型代码生成行为的规律性与变异提供了量化基础。该数据集作为连接自然语言处理与软件度量学的桥梁,有望促进大型语言模型在代码生成领域实证评估方法的发展与标准化。
当前挑战
1) 领域问题挑战:当前大型语言模型生成的代码虽能通过基础语法检查,但在实际运行时面临正确率波动大、测试覆盖不完整等问题,亟需系统化度量框架以量化代码的质量与可维护性。2) 构建过程挑战:数据集规模较小(仅164例),可能难以捕捉模型在复杂任务或长代码序列上的表现分布;Halstead指标与可维护性指数等静态度量能否准确反映生成代码的动态行为仍需验证;同时,缺乏跨模型版本的对照数据,限制了从单一超参数配置推断生成行为规律的泛化能力。
常用场景
经典使用场景
该数据集聚焦于代码生成模型的自动评估,通过整合Halstead复杂度度量与代码正确性指标,为审视代码质量提供了多维视角。经典使用场景聚焦于量化评估大语言模型在代码补全或函数生成任务中的输出表现,尤其适用于对比不同模型(如Qwen3-14B)在相同指令下的编码能力。研究者可利用该数据集的海量微调结果,系统分析生成代码的认知复杂度、可维护性与执行正确性之间的关联,进而构建更可靠的代码评测基准。
衍生相关工作
该数据集引领了一系列关于代码生成模型鲁棒性与可解释性的衍化研究。研究者基于此数据集中halstead_volume与maintainability_index的分布规律,发展出针对大模型输出代码的反绎修复算法;亦有工作借助其对error_type的细粒度标注,训练了能够预测生成代码潜在缺陷的元分类器。这些衍生工作共同拓宽了代码智能的研究边界,将评估焦点从‘能否生成正确代码’深化至‘能否生成可维护的高质量代码’这一软件工程终极命题。
数据集最近研究
最新研究方向
在代码生成与评估领域,该数据集聚焦于大语言模型生成代码的质量量化与多维度度量分析。前沿研究正从简单的通过率测试转向融合软件工程指标的深度评估,如Halstead复杂度、可维护性指数等,以更全面地刻画模型产出的结构合理性与维护成本。结合Qwen3-14B等先进模型的低学习率微调策略,该数据集为探索代码语义正确性与代码质量之间的权衡提供了实证基础,推动了自动化代码评估从二值正确性向细粒度质量画像的范式演进,对于构建更鲁棒、更贴近工程实践的代码智能系统具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作