autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含代码任务的相关信息，主要用于分析和评估代码质量与执行情况。数据集包含164个训练样本，每个样本具有多个特征字段，包括任务ID（task_id）、入口点（entry_point）、是否可执行（is_executable）、是否正确（is_correct）、通过和失败的测试数量（tests_passed, tests_failed）、错误类型（error_type）等。此外，还提供了代码复杂度相关的Halstead度量（如词汇量、长度、体积、难度、工作量）以及可维护性指数（maintainability_index）和定义函数数量（n_func_defined）等指标。数据集适用于代码质量评估、自动化测试和代码复杂度分析等任务。

创建时间：

2026-04-18

原始信息汇总

数据集概述

基本信息

数据集名称: autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/stefanocarrera/autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1

数据规模

总样本数: 164
数据分割: 仅包含训练集（train）
训练集样本数: 164
训练集大小: 18532 字节
下载大小: 17062 字节
数据集总大小: 18532 字节

数据结构与特征

数据集包含以下字段：

标识与执行信息

task_id: 任务标识符（字符串类型）
entry_point: 入口点（字符串类型）
is_executable: 是否可执行（布尔类型）
is_correct: 是否正确（布尔类型）
tests_passed: 通过的测试数（整型）
tests_failed: 失败的测试数（整型）
test_run_time_ms: 测试运行时间（毫秒），当前为 null 值
error_type: 错误类型（字符串类型）

代码度量指标

halstead_vocabulary: 哈尔斯特德词汇量（整型）
halstead_length: 哈尔斯特德长度（整型）
halstead_volume: 哈尔斯特德体积（浮点型）
halstead_difficulty: 哈尔斯特德难度（浮点型）
halstead_effort: 哈尔斯特德工作量（浮点型）
maintainability_index: 可维护性指数（浮点型）
n_func_defined: 定义的函数数量（整型）
entry_point_repeated: 入口点是否重复（布尔类型）

数据获取

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1数据集通过系统化的方法构建而成。其核心流程涉及从特定任务中收集代码样本，并利用自动化测试框架对代码的执行正确性进行验证。每个样本均标注了任务标识、入口点及多项静态与动态指标，如通过测试数量、错误类型以及Halstead复杂度度量，从而形成结构化的评估记录。数据集的生成依托于预训练模型在指令调优下的输出，确保了样本来源的可靠性与技术前沿性。

特点

该数据集展现出多维度评估的鲜明特点，不仅涵盖代码的功能正确性，如可执行状态与测试通过率，还深入代码质量层面，提供了Halstead度量与可维护性指数等静态分析指标。特征设计兼顾动态执行结果与静态结构属性，使得数据能够同时反映代码的行为表现与内在复杂度。样本规模紧凑而精炼，所有数据均整合于单一训练分割中，便于研究者直接应用于模型微调或评估任务，体现了高效集成的设计理念。

使用方法

使用本数据集时，研究者可将其直接加载至支持HuggingFace格式的工具链中，通过指定默认配置即可访问训练分割的全部样本。数据适用于代码生成模型的性能评估，尤其是针对功能正确性、代码质量及错误分析的量化研究。用户可依据任务ID与入口点追踪代码上下文，结合通过测试数、错误类型等字段进行细粒度分析，或利用复杂度指标探究代码生成模型的结构化输出特性。数据集为端到端的评估流程提供了标准化输入，支持在机器学习与软件工程交叉领域的实证探索。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与评估成为核心研究议题。autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1数据集应运而生，其名称暗示了与自噬代码（autophagycode）及大语言模型Qwen3-8B的关联，可能由相关研究团队为探索代码质量自动化评估而构建。该数据集聚焦于通过多维指标（如Halstead复杂度、可维护性指数及测试通过率）系统量化生成代码的功能正确性、结构复杂性与可维护性，旨在推动代码生成模型从单纯功能实现向高质量、可维护产出的演进，对提升AI辅助编程的实用性与可靠性具有显著意义。

当前挑战

该数据集致力于解决代码生成领域的关键挑战：如何超越基础功能正确性，从软件工程角度全面评估生成代码的质量，包括其复杂度、可维护性及鲁棒性。构建过程中面临多重困难：一是设计兼顾执行结果与静态代码属性的综合评估框架，需平衡指标的科学性与计算可行性；二是收集大规模、多样化的高质量代码样本并标注精细的测试与度量数据，过程耗时且易受噪声干扰；三是确保评估指标（如Halstead度量）在不同编程语境下的有效性与一致性，避免偏差影响模型优化方向。

常用场景

经典使用场景

在软件工程与代码质量评估领域，autophagycode_D_metrics_he_Qwen3-8B-instr_lr0.0001_trust_g1数据集为研究人员提供了一个结构化的基准平台，专门用于分析代码执行正确性、可维护性及复杂度指标。该数据集通过整合任务标识、测试通过率、Halstead复杂度度量及可维护性指数等特征，支持对自动化生成或人工编写代码的全面评估。经典使用场景包括训练机器学习模型以预测代码缺陷、优化代码生成算法，以及验证软件度量工具的有效性，从而推动智能编程辅助系统的发展。

实际应用

在实际应用层面，该数据集被广泛集成于持续集成与部署流水线中，用于自动化检测代码库中的潜在缺陷与可维护性风险。开发团队可依据其度量结果优先重构高复杂度或低可维护性模块，从而降低长期维护成本。此外，它支持教育场景中的编程教学评估，帮助学生直观理解代码质量指标，并辅助企业招聘中技术能力的客观测评，实现了从学术研究到工业实践的平滑过渡。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在智能代码审查与生成领域。例如，基于其度量特征训练的神经网络模型被用于构建自动化代码评分系统，相关研究进一步扩展至代码克隆检测与漏洞预测任务。同时，该数据集启发了对多编程语言度量标准化的探索，促进了跨语言代码质量基准的建立，为后续大规模代码分析数据集如CodeXGLUE等提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集