stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics
Creator: stefanocarrera
Published: 2026-04-25 09:56:46
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 233295 num_examples: 164 download_size: 99725 dataset_size: 233295 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics，源自对代码生成模型输出的系统性评估。构建过程中，研究者首先利用Qwen3-4B模型在特定策略（trust策略）下生成代码样本，随后对生成的代码执行自动化测试，以记录其可执行性、正确性及测试通过/失败数量等执行指标。同时，结合Halstead复杂度度量（包括词汇量、长度、体积、难度、耗时等）、圈复杂度、可维护性指数、代码行数（loc与sloc）、注释比例、词元丰富度（TTR）、香农熵及预测熵等多维代码特征，构建了一个包含164条训练样本的精细评估数据集。每一样本均关联唯一任务标识（task_id）与入口函数（entry_point），确保评估的可追溯性。

特点

该数据集的核心特点在于其多维度的评估指标体系，融合了代码执行结果与静态代码质量分析。一方面，通过is_executable、is_correct、tests_passed与tests_failed等字段直接反映模型生成代码的功能正确性；另一方面，引入Halstead系列指标、圈复杂度与可维护性指数，从软件工程角度量化代码的结构复杂度与可维护性。此外，词元字典（token_dict）、TTR与熵值等特征提供了对代码文本层面多样性与不确定性的刻画。这种交叉学科式的特征设计，使得数据集不仅能用于评估代码生成模型的性能，还可支撑代码质量预测、复杂度分析及生成模型的鲁棒性研究。

使用方法

数据集以HuggingFace标准格式存储，包含一个默认配置的train分割，共164个样本。用户可通过HuggingFace的datasets库直接加载，使用load_dataset("autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics")获取数据。加载后，数据以字典形式提供，各字段类型明确，便于后续分析与建模。可应用于代码生成模型性能对比、代码质量评估模型训练、或作为代码可执行性预测与复杂度回归任务的特征工程基础。研究者也可依据task_id字段与其他数据集进行跨任务联合分析，以深入探究不同生成策略对代码质量的影响机制。

背景与挑战

背景概述

该数据集由autophagycode实验室于近期构建，核心研究人员致力于探索代码生成模型在可信性与复杂性度量方面的表现。其核心研究问题聚焦于评估大语言模型（如Qwen3-4B）在解决编程任务时的正确性、执行效率及代码质量，通过引入Halstead复杂度、圈复杂度、可维护性指数及香农熵等多维指标，为代码生成模型的鲁棒性分析提供量化基准。数据集虽规模有限（164条样本），但结构设计精细，涵盖了从基础语法到语义逻辑的评估维度，对于推动代码智能领域的可信计算研究具有启示意义，尤其为后续构建更全面的代码生成评估体系奠定了基础。

当前挑战

当前数据集面临的主要挑战包括：1）所解决的领域问题——代码生成模型在实际应用中常产生功能正确但语义模糊或质量低劣的代码，现有评估体系多依赖功能性测试（如通过的测试用例数），缺乏对代码可维护性、执行效率及逻辑复杂性的系统度量，该数据集虽尝试整合复杂度指标，但样本量不足可能影响统计显著性与泛化能力；2）构建过程中遇到的挑战——数据特征包含多达25项专业代码度量，但测试运行时间为空值，暗示执行环境搭建或结果采集存在瓶颈；同时部分特征（如令牌字典、代码行数）的冗余性与高计算成本增加了数据清洗与处理的复杂度，且布尔型字段（如is_correct）与浮点型指标（如平均预测熵）之间的异质性给多维度联合分析带来了标准化困难。

常用场景

经典使用场景

在代码智能与程序合成领域，autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g8_metrics 数据集凭借其丰富的代码质量度量指标，成为评估和提升大语言模型代码生成能力的经典基准。该数据集包含了任务标识、执行正确性、测试通过率、运行时间等关键元数据，同时融入了Halstead复杂度、圈复杂度、可维护性指数以及香农熵等精细化的软件工程特征。研究者通常利用此数据集对模型生成的代码进行多维度评估，不仅关注功能正确性，更深入考察代码的结构质量、可读性及运行效率，从而推动生成式模型从粗糙的‘代码补全’向高标准的‘工业级代码合成’迈进。

解决学术问题

该数据集系统地解决了当前大语言模型代码生成研究中存在的两大核心学术问题：一是生成代码的质量评估维度单一，二是缺乏对‘信任’与‘策略’机制的可量化分析。通过引入错误类型分类、预测熵值与代码复杂度等指标，学者得以深入剖析模型在何种情境下倾向于生成可信、可维护的代码，而非仅仅追求测试用例的通过。这为理解模型的‘信任边距’与生成策略的鲁棒性提供了宝贵的数据支撑，其意义在于推动代码合成领域从‘功能正确性’的浅层评价，跃迁至‘语义合理性与结构优雅性’并重的深层研究范式，对构建更可靠、更符合人类工程习惯的智能编程助手具有深远影响。

衍生相关工作

基于 autophagycode 数据集所开创的多维代码质量评估范式，学术界衍生了一系列卓有影响力的经典工作。一方面，研究者利用其提供的 Halstead 体积与圈复杂度等结构化特征，训练出能预测代码可维护性衰减趋势的回归模型，为长期软件进化提供了预警机制。另一方面，数据集中‘预测熵’与‘信任边距’的引入，激发了对代码生成中模型不确定性量化的系列探索，催生了诸如‘对抗性代码测试集’与‘高熵代码检测器’等副产品。此外，该数据集的度量体系还被迁移至多语言代码生成任务中，形成了跨编程语言的复杂度归一化方法，极大地拓展了其在跨平台代码智能解析领域的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集