stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g7_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g7_metrics
Creator: stefanocarrera
Published: 2026-04-25 08:56:04
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g7_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 233357 num_examples: 164 download_size: 99344 dataset_size: 233357 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-4B模型在Mercury基准测试上的推理结果构建而成，聚焦于代码生成任务中的可信度与质量评估。数据采集过程采用'策略信任'（strategy_trust）机制，通过t1和g7两种筛选策略对模型生成的代码片段进行多维度过滤。每条样本包含任务标识（task_id）、入口函数名（entry_point）、可执行性（is_executable）与正确性（is_correct）等基础属性，并记录了测试通过数（tests_passed）、测试失败数（tests_failed）及错误类型（error_type），从而构建了一个结构清晰、指标丰富的代码评估数据集。

使用方法

数据集以HuggingFace标准格式存储，仅包含训练集（train）划分，共计164条样本，总大小约228KB。用户可通过HuggingFace的datasets库直接加载：使用'load_dataset'函数并指定数据集路径即可读取。加载后每条样本包含25个特征字段，覆盖从任务元信息到代码度量指标的完整体系，便于直接用于模型推理结果的后处理分析、代码生成质量评估或可解释性研究。建议研究者重点关注错误类型（error_type）与各类复杂度指标之间的关联分析，以揭示模型推理的潜在模式。

背景与挑战

背景概述

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g7_metrics，是一个专注于代码质量评估与软件度量分析的专业数据集。其创建背景源于人工智能生成代码（AI-generated code）的迅猛发展，尤其是在大语言模型（如Qwen3-4B）辅助编程的背景下，评估生成代码的可执行性、正确性、复杂性和可维护性成为关键研究问题。该数据集由从事自噬代码（autophagycode）相关研究的人员或机构构建，旨在对模型输出代码进行细粒度度量。数据集包含164条训练样本，涵盖任务标识、代码入口点、执行状态、测试通过/失败计数、Halstead复杂度指标（如词汇量、长度、难度、工作量）、圈复杂度、可维护性指数、代码行数、香农熵等32个特征，为代码质量分析提供了多维度的量化基础。该数据集推动了代码生成领域从简单正确性评估向综合性软件度量分析的演进，对提升大模型代码生成的可信度与鲁棒性具有重要意义。

当前挑战

该数据集面临多重挑战。首先，在领域问题层面，当前AI代码生成面临的核心挑战是生成代码的可靠性评估，仅依赖通过率（tests_passed）难以全面反映代码质量，需融合可维护性、复杂度、熵等度量指标构建综合评价体系。其次，在构建过程中，数据集样本规模较小（仅164例），可能限制统计显著性和泛化能力，且特征维度高达28个，容易引发高维稀疏与过拟合问题。此外，部分度量如Halstead方法和圈复杂度依赖于静态代码分析，在处理动态语言特性（如运行时错误type为null）时存在局限性。最后，数据集中执行状态（is_executable）与正确性（is_correct）的非对齐情况（如可执行但不正确）增加了标签噪声处理的难度，需要精细化的数据清洗与特征工程策略来确保模型的稳健训练。

常用场景

经典使用场景

在代码智能与软件工程研究领域，autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g7_metrics数据集为评估和比较代码生成模型的能力提供了坚实的基准。该数据集聚焦于数学推理与代码执行的交叉领域，通过记录任务ID、入口函数、可执行性、测试通过率以及多种代码复杂度指标（如圈复杂度、Halstead度量、维护性指数等），研究者能够系统性地分析模型生成代码的功能正确性与结构质量。其经典应用场景包括：训练少样本或零样本的代码生成模型，并利用多项执行指标与静态分析度量来评价模型在复杂数学问题上的泛化表现。

解决学术问题

该数据集解决了当前学术领域内一个关键挑战：如何全面、客观地评估大语言模型在代码生成任务中的综合能力，而不仅限于简单的功能正确性检验。传统方法往往仅关注测试用例通过率，忽视了代码的可维护性、复杂度以及内在的认知负荷。本数据集通过引入Halstead复杂度、圈复杂度、维护性指数、Shannon熵等细粒度度量，使研究者能够从代码结构、可读性和执行效率等多维度剖析模型输出的优劣。这在促进代码生成模型的鲁棒性与实用性评估方面具有深远意义，并为探索模型推理能力与代码质量之间的内在关联提供了量化工具，推动了可解释性和可信赖AI在编程领域的理论发展。

实际应用

在实际应用场景中，该数据集可用于构建自动化的代码质量审查系统，帮助开发者在集成开发环境中实时评估AI辅助生成的代码是否满足企业级的可维护标准。基于数据集中丰富的静态与动态度量指标，软件工程团队能够筛选出高可靠性的候选代码片段，降低因代码结构混乱或复杂度超限而导致的后期运维成本。此外，该数据集还可服务于教育平台，用于自动评分与反馈，不仅判断学生的代码能否通过测试，还深入分析其编码风格、模块化程度和潜在缺陷，从而提供更具建设性的学习指导。在金融、医疗等对代码安全性和可解释性要求苛刻的领域，该数据集的应用将为低风险代码生成器的部署提供重要依据。

数据集最近研究