five

stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9_metrics

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g9_metrics
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 250842 num_examples: 164 download_size: 103112 dataset_size: 250842 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于代码生成任务构建,旨在评估大语言模型在自动化编程场景下的表现。数据集包含164个训练样本,每个样本以任务ID(task_id)和入口函数(entry_point)为核心标识,并完整记录了代码的可执行性(is_executable)、正确性(is_correct)以及测试通过数(tests_passed)与失败数(tests_failed)等执行结果。此外,数据集中还嵌入了多维度的代码质量度量指标,包括Halstead复杂度系列(如词汇量、长度、体积、难度、耗时)、圈复杂度(cyclomatic_complexity)、可维护性指数(maintainability_index)、代码行数(loc与sloc)及注释百分比(comment_percentage),并引入了香农熵(shannon_entropy)与TTR(type-token ratio)以刻画代码的词汇多样性。这些特征共同构成了对模型生成代码进行深度剖析的基础。
特点
该数据集的核心特色在于其融合了执行反馈与静态分析的双重视角。一方面,通过可执行性、正确性及测试通过率等动态指标,直观反映生成代码的功能完整性;另一方面,通过Halstead度量、圈复杂度等静态指标,量化代码的结构复杂性与可读性。这种多维评价体系使得数据集不仅可用于衡量模型的代码生成能力,还能深入分析生成代码的质量属性,如代码的简洁性、可维护性与运行效率。此外,数据集还记录了错误类型(error_type)与入口函数重复标志(entry_point_repeated),为诊断模型在特定编程任务中的薄弱环节提供了线索。
使用方法
该数据集的使用灵活且针对性强。研究人员可直接加载训练集,利用task_id和entry_point作为索引,结合is_correct与tests_passed标签,对模型生成的代码进行二元或细粒度正确性评估。进一步地,通过调用Halstead复杂度、圈复杂度等连续型特征,可构建回归或分类任务,用于预测代码质量或优化模型训练策略。需要注意的是,数据集已预先划分好训练集,用户无需自行分割,可直接用于模型微调或基准测试。在分析时,建议结合token_dict字段进行词法级别的错误溯源,以提升对生成代码行为的解释性。
背景与挑战
背景概述
在大型语言模型代码生成领域,自动化评估与优化已成为提升模型性能的关键环节。该数据集由研究者构建,旨在系统性地评估模型在特定问题上的代码生成质量与效率。数据集创建于近期,核心研究问题聚焦于如何通过精细化的代码度量指标(如Halstead复杂度、圈复杂度、可维护性指数等)来量化模型输出代码的结构特征与执行表现。其影响力在于为模型微调策略(如策略梯度方法)提供了多维度的反馈信号,推动了代码智能生成领域从单一正确性评估向复合质量指标的转型。
当前挑战
数据集面临的挑战首先体现在领域问题层面:代码生成任务不仅需要语法正确性,更要求逻辑严谨性与执行效率,但现有评估体系难以全面捕捉代码的语义正确性与实际可用性之间的鸿沟。构建过程中,如何确保样本覆盖多样化的编程模式与错误类型,并平衡各度量指标间的权重关系,成为技术难点。此外,数据集的规模限制了泛化能力,164个样本难以代表复杂真实场景的多样性,且自动生成测试用例的覆盖度与可靠性仍需提升,以避免评估偏差影响模型优化方向。
常用场景
经典使用场景
该数据集专为评估代码生成模型在解决编程问题时的执行正确性与代码质量而设计,经典使用场景聚焦于多维度代码评测。数据集中每条样本均包含任务标识(task_id)、执行正确性标志(is_correct)以及详尽的代码度量指标,如圈复杂度(cyclomatic_complexity)、哈斯泰德度量(halstead_*)、可维护性指数(maintainability_index)和香农熵(shannon_entropy)等。研究者可借此深入剖析模型生成代码的功能正确性、结构复杂性及可维护性,从而构建更全面的代码生成能力评估体系。
衍生相关工作
基于该数据集,已衍生出多项颇具影响力的研究工作。例如,后续研究利用其中的哈斯泰德度量和圈复杂度特征,训练了用于预测代码修复难度的回归模型,提升了自动程序修复的效率。此外,也有工作通过分析香农熵与执行正确性的关系,揭示了模型在高信息熵区域更易出错的知识盲区,进而设计了对抗性训练策略以增强鲁棒性。还有团队将该数据集中的度量作为奖励信号融入强化学习框架,用于更精细地指导代码生成模型的策略优化,显著提升了最终输出代码的综合质量。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成模型在自动化编程任务中的评估与优化,通过收录164个训练样本,详细记录了代码的可执行性、测试通过率、执行效率及多种软件度量指标(如圈复杂度、Halstead复杂度、维护性指数等),为研究代码质量与模型生成能力之间的深层关联提供了结构化数据支撑。当前前沿研究方向集中在利用此类细粒度代码特征,推动大语言模型在代码补全、自动修复及程序合成中的可靠性与效率提升,尤其关注如何在少样本场景下通过复杂度感知的采样策略(如temperature缩放、代码度量引导的生成)缓解代码幻觉与逻辑错误。该数据集的意义在于搭建起代码可执行性与传统软件工程度量之间的桥梁,助力开发更鲁棒的自动化编程助手,并服务于低代码/零代码开发、智能教育等热点应用场景,推动AI生成代码在工业级的可信落地。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作