stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9_metrics

Name: stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9_metrics
Creator: stefanocarrera
Published: 2026-04-25 00:39:36
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9_metrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 250842 num_examples: 164 download_size: 103112 dataset_size: 250842 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

stefanocarrera

搜集汇总

数据集介绍

构建方式

该数据集基于代码生成任务构建，旨在评估大语言模型在自动化编程场景下的表现。数据集包含164个训练样本，每个样本以任务ID（task_id）和入口函数（entry_point）为核心标识，并完整记录了代码的可执行性（is_executable）、正确性（is_correct）以及测试通过数（tests_passed）与失败数（tests_failed）等执行结果。此外，数据集中还嵌入了多维度的代码质量度量指标，包括Halstead复杂度系列（如词汇量、长度、体积、难度、耗时）、圈复杂度（cyclomatic_complexity）、可维护性指数（maintainability_index）、代码行数（loc与sloc）及注释百分比（comment_percentage），并引入了香农熵（shannon_entropy）与TTR（type-token ratio）以刻画代码的词汇多样性。这些特征共同构成了对模型生成代码进行深度剖析的基础。

特点

该数据集的核心特色在于其融合了执行反馈与静态分析的双重视角。一方面，通过可执行性、正确性及测试通过率等动态指标，直观反映生成代码的功能完整性；另一方面，通过Halstead度量、圈复杂度等静态指标，量化代码的结构复杂性与可读性。这种多维评价体系使得数据集不仅可用于衡量模型的代码生成能力，还能深入分析生成代码的质量属性，如代码的简洁性、可维护性与运行效率。此外，数据集还记录了错误类型（error_type）与入口函数重复标志（entry_point_repeated），为诊断模型在特定编程任务中的薄弱环节提供了线索。

使用方法

该数据集的使用灵活且针对性强。研究人员可直接加载训练集，利用task_id和entry_point作为索引，结合is_correct与tests_passed标签，对模型生成的代码进行二元或细粒度正确性评估。进一步地，通过调用Halstead复杂度、圈复杂度等连续型特征，可构建回归或分类任务，用于预测代码质量或优化模型训练策略。需要注意的是，数据集已预先划分好训练集，用户无需自行分割，可直接用于模型微调或基准测试。在分析时，建议结合token_dict字段进行词法级别的错误溯源，以提升对生成代码行为的解释性。

背景与挑战

背景概述

在大型语言模型代码生成领域，自动化评估与优化已成为提升模型性能的关键环节。该数据集由研究者构建，旨在系统性地评估模型在特定问题上的代码生成质量与效率。数据集创建于近期，核心研究问题聚焦于如何通过精细化的代码度量指标（如Halstead复杂度、圈复杂度、可维护性指数等）来量化模型输出代码的结构特征与执行表现。其影响力在于为模型微调策略（如策略梯度方法）提供了多维度的反馈信号，推动了代码智能生成领域从单一正确性评估向复合质量指标的转型。

当前挑战

数据集面临的挑战首先体现在领域问题层面：代码生成任务不仅需要语法正确性，更要求逻辑严谨性与执行效率，但现有评估体系难以全面捕捉代码的语义正确性与实际可用性之间的鸿沟。构建过程中，如何确保样本覆盖多样化的编程模式与错误类型，并平衡各度量指标间的权重关系，成为技术难点。此外，数据集的规模限制了泛化能力，164个样本难以代表复杂真实场景的多样性，且自动生成测试用例的覆盖度与可靠性仍需提升，以避免评估偏差影响模型优化方向。

常用场景

经典使用场景

该数据集专为评估代码生成模型在解决编程问题时的执行正确性与代码质量而设计，经典使用场景聚焦于多维度代码评测。数据集中每条样本均包含任务标识（task_id）、执行正确性标志（is_correct）以及详尽的代码度量指标，如圈复杂度（cyclomatic_complexity）、哈斯泰德度量（halstead_*）、可维护性指数（maintainability_index）和香农熵（shannon_entropy）等。研究者可借此深入剖析模型生成代码的功能正确性、结构复杂性及可维护性，从而构建更全面的代码生成能力评估体系。

衍生相关工作

基于该数据集，已衍生出多项颇具影响力的研究工作。例如，后续研究利用其中的哈斯泰德度量和圈复杂度特征，训练了用于预测代码修复难度的回归模型，提升了自动程序修复的效率。此外，也有工作通过分析香农熵与执行正确性的关系，揭示了模型在高信息熵区域更易出错的知识盲区，进而设计了对抗性训练策略以增强鲁棒性。还有团队将该数据集中的度量作为奖励信号融入强化学习框架，用于更精细地指导代码生成模型的策略优化，显著提升了最终输出代码的综合质量。

数据集最近研究