autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含142个训练样本，总大小为16,649字节。每个样本包含多个特征字段，包括任务ID（task_id）、入口点（entry_point）、可执行状态（is_executable）、正确性标记（is_correct）、通过/失败的测试数量（tests_passed/tests_failed）、测试运行时间（test_run_time_ms）、错误类型（error_type）、Halstead复杂度指标（包括词汇量、长度、体积、难度和工作量）、可维护性指数（maintainability_index）、定义函数数量（n_func_defined）以及入口点重复标记（entry_point_repeated）。数据集适用于代码分析、软件质量评估和程序正确性验证等任务。

创建时间：

2026-03-31

原始信息汇总

数据集概述

数据集基本信息

数据集名称: autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6
来源地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6
下载大小: 16863 字节
数据集大小: 16649 字节

数据内容与结构

数据条数: 142 条样本
数据格式: 包含一个名为 "train" 的训练集拆分
特征字段:
- task_id: 字符串类型，任务标识符
- entry_point: 字符串类型，入口点
- is_executable: 布尔类型，是否可执行
- is_correct: 布尔类型，是否正确
- tests_passed: 整型，通过的测试数量
- tests_failed: 整型，失败的测试数量
- test_run_time_ms: 浮点型，测试运行时间（毫秒）
- error_type: 字符串类型，错误类型
- halstead_vocabulary: 整型，Halstead词汇量
- halstead_length: 整型，Halstead长度
- halstead_volume: 浮点型，Halstead体积
- halstead_difficulty: 浮点型，Halstead难度
- halstead_effort: 浮点型，Halstead工作量
- maintainability_index: 浮点型，可维护性指数
- n_func_defined: 整型，定义的函数数量
- entry_point_repeated: 布尔类型，入口点是否重复

配置信息

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在计算生物学与代码质量评估的交叉领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6数据集的构建体现了系统化的工程思维。该数据集通过整合特定任务标识、入口点函数及可执行性验证，系统采集了代码样本在测试通过率、运行时间及错误类型等多维度指标。进一步融合了Halstead软件科学度量与可维护性指数等经典代码复杂度特征，形成了一套结构化的评估框架。其构建过程注重从实际代码执行中提取量化数据，确保了数据来源的可靠性与评估维度的全面性。

特点

该数据集的核心特点在于其多维度的代码质量度量体系。它不仅记录了代码的功能正确性，如测试通过与否及错误分类，还深入量化了代码的内在属性，包括词汇量、长度、体积、难度与工作量等Halstead复杂度指标，以及可维护性指数和定义函数数量。这种将外部执行表现与内部结构特征相结合的设计，为深入分析代码性能与质量提供了丰富的特征空间。数据以结构化格式呈现，便于进行机器学习模型的训练与评估。

使用方法

该数据集主要服务于代码生成、质量评估及软件工程领域的机器学习研究。使用者可加载数据集后，依据任务ID与入口点定位具体代码实例，利用其丰富的度量特征作为模型输入或监督信号。例如，可将Halstead度量与可维护性指数作为特征，预测代码的正确性或执行效率；也可基于测试通过情况构建分类或回归任务。数据集的标准化格式确保了与主流机器学习框架的兼容性，支持直接用于模型训练、验证及基准测试。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码质量评估与自动化测试已成为提升软件开发效率的关键研究方向。数据集'autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6'由相关研究团队构建，旨在通过量化指标分析代码的执行特性与结构复杂度。该数据集聚焦于代码功能正确性、测试覆盖率及可维护性等核心问题，为机器学习模型在代码生成与优化任务中提供细粒度的训练与评估基准，推动了智能编程辅助工具的发展。

当前挑战

该数据集致力于解决代码质量自动化评估中的挑战，包括准确预测代码执行正确性、平衡测试用例的覆盖范围以及量化代码可维护性等复杂问题。在构建过程中，面临数据标注一致性保障、多样化代码样本收集以及复杂度量指标（如Halstead复杂度与可维护性指数）的可靠计算等困难，这些因素共同增加了数据集构建的复杂度与技术要求。

常用场景

经典使用场景

在代码质量评估与自动化测试领域，autophagycode_D_metrics_train_Qwen3-14B_lr0.0001_trust_g6数据集为研究者提供了丰富的代码执行与度量特征。该数据集常用于训练和验证机器学习模型，以预测代码的可执行性、正确性及维护性指标，特别是在代码生成与修复任务中，通过结合测试通过率、Halstead复杂度及可维护性指数等特征，模型能够更精准地评估代码片段的实际运行表现与内在质量。

解决学术问题

该数据集有效解决了代码智能研究中代码质量量化评估的难题。传统方法往往依赖人工审查或简单规则，难以全面捕捉代码的复杂性与可靠性。通过整合执行结果、测试覆盖及多种静态度量，该数据集支持构建端到端的评估模型，促进了代码正确性预测、缺陷检测及可维护性分析等核心问题的研究，为自动化软件工程提供了可靠的数据基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在代码生成模型的微调与评估框架构建上。例如，研究者利用其丰富的度量特征，开发了针对代码可执行性与正确性的多任务学习模型，并进一步探索了代码复杂度与错误类型之间的关联规律。这些工作不仅推动了代码智能领域的发展，也为后续的代码质量基准测试与工具开发提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集