stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g2_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g2_metrics
Creator: stefanocarrera
Published: 2026-04-25 04:03:39
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g2_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 233956 num_examples: 164 download_size: 100819 dataset_size: 233956 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于开源模型Qwen3-4B在特定策略（trust）与配置（t1_g2）下生成的代码样本构建而成。构建过程首先从代码生成任务中提取每个样本的执行结果与正确性信息，随后利用静态分析技术对生成的代码进行多维度度量，包括Halstead复杂度指标（如词汇量、长度、体积、难度、工作量与时间）、圈复杂度、可维护性指数、代码行数（LOC与SLOC）、注释比例以及类型-令牌比（TTR）。此外，还计算了代码的香农熵、预测熵、最大预测熵等不确定性指标，并记录了定义函数数量与入口点重复情况。最终形成一个包含164个训练样本的结构化数据集，每个样本均被赋予详尽的质量与复杂度特征。

特点

数据集的核心特点在于其综合性的代码质量评估体系，涵盖了从执行结果到静态分析的多个层面。不仅记录了代码是否可执行、测试通过与失败数量及运行时间等基础执行信息，还引入了Halstead系列指标、圈复杂度和可维护性指数等经典软件工程度量，为代码的可理解性与维护难度提供了量化依据。同时，通过计算香农熵与预测熵，数据集在传统复杂度度量之外融入了信息论视角，有助于分析模型生成代码的不确定性与多样性。此外，数据集还包含代码令牌分布的详细记录，为深入研究代码的词汇结构提供了丰富的原始数据。

使用方法

此数据集适用于代码生成模型的评估与改进研究，特别适用于分析模型在不同复杂度与质量维度上的生成表现。研究者可直接利用HuggingFace Datasets库加载数据，通过指定配置名称'default'和拆分名称'train'获取全部164个样本。每个样本包含的39个特征字段可被灵活提取，用于训练代码质量预测模型、分析生成代码的复杂度分布，或对比不同生成策略下的代码特性。由于数据集规模适中且特征丰富，也可作为小样本学习或迁移学习研究的基座数据，为代码智能领域的多维度分析提供基础支撑。

背景与挑战

背景概述

该数据集由自噬代码（autophagycode）团队于近期构建，旨在评估大语言模型在自动化代码生成任务中的表现，核心聚焦于Qwen3-4B模型在'信任'策略下的执行效能。数据集包含164条训练样本，每条记录涵盖了从任务标识、代码执行正确性到多维度软件复杂度指标（如圈复杂度、Halstead度量、维护性指数）的详尽信息，并融入了香农熵等预测性不确定性指标。这一创新设计不仅为代码合成质量提供了量化评估框架，更将计算语言学与软件工程度量深度融合，推动了对大模型代码生成行为可解释性的系统性探索，对自动化编程与智能软件开发领域具有重要启示意义。

当前挑战

面临的挑战首先在于领域问题的复杂性：大模型生成的代码常存在功能正确性与非功能性质量（如可维护性、效率）之间的隐性冲突，现有评估基准难以同时兼顾多维度质量指标。构建过程中，团队需解决代码执行环境的不确定性捕获难题——如通过TTR（测试通过率）与错误类型标签记录动态执行结果，但时延数据（test_run_time_ms）的缺失暴露出运行时性能测量在标准化执行环境中的实施困境。此外，从164条样本中提炼通用性规律面临小样本统计效力的约束，而Shannon熵与Halstead难度等指标间非线性关系的建模，进一步对数据集在多样化编程任务上的泛化能力提出了严苛要求。

常用场景

经典使用场景

该数据集聚焦于代码生成与执行质量的交叉验证场景，尤其适用于评估和优化大语言模型在自动编程任务中的表现。通过记录代码片段的测试通过率、运行时间、错误类型等关键指标，研究者可系统性地衡量模型生成代码的功能正确性与鲁棒性。同时，丰富的软件度量特征（如圈复杂度、可维护性指数、Halstead复杂度）为深入分析代码结构质量提供了多维视角。数据集默认包含164条训练样本，规模虽有限，但其精细化的评价指标使其成为微调模型或进行少样本学习策略验证的理想基准，特别适合在自动化代码审查、编程教育辅助等需要精确控制代码质量的领域发挥价值。

解决学术问题

在代码智能领域，长期面临两个核心学术挑战：如何量化评估模型生成代码的可靠性，以及如何将执行反馈融入学习过程以提升模型性能。该数据集通过整合执行结果（测试通过/失败数量）与静态代码度量（如香农熵、词汇多样性TTR），系统性地解决了代码质量分析中执行动态与结构静态之间的割裂问题。其提供的错误类型分类有助于研究者诊断模型在边界条件处理、类型约束等逻辑陷阱中的典型失败模式。更重要的是，数据集中预测熵的引入为探索模型不确定性估计与代码质量之间的关联铺平了道路，对推动可解释代码生成和信赖度感知的编程助手研究具有里程碑意义。

衍生相关工作

该数据集的结构设计直接启发了两类后续工作：一是基于执行轨迹的代码修复策略研究，研究者利用测试失败信息构建了从错误类型到补丁模式的映射关系，推动了自动程序修复技术的进步。二是代码复杂度与模型预测置信度的联合建模工作，衍生出多种混合评价体系，例如将Halstead工作量度量与注意力机制相结合的新型代码表示学习方法。此外，数据集中维护的token级熵特征已被应用于对抗样本生成和代码混淆检测领域，形成了防御性代码增强的新范式。这些衍生工作共同勾勒出从单纯追求功能正确到兼顾结构优雅与执行稳健的代码智能演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集