stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g1_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g1_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 239141
num_examples: 164
download_size: 103305
dataset_size: 239141
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集源自对开源代码生成基准测试中模型生成代码的深度分析,旨在系统评估生成代码的质量与可执行性。构建过程中,首先通过自动化测试框架对每个代码片段进行执行验证,记录其是否可执行及测试通过情况。随后,引入Halstead复杂度度量体系,从词汇量、长度、体积、难度、工作量及时间等多个维度量化代码的软件工程属性。同时,融合圈复杂度、可维护性指数、代码行数、注释比例等常用指标,并创新性地加入Token文本重复率、香农熵、预测熵等信息论特征,形成多维度的代码质量画像。最终,基于任务ID与入口点函数名进行关联整理,构建了包含164个训练样本的精细标注数据集。
特点
数据集的一个显著特点在于其丰富的维度覆盖,不仅包含传统软件工程中的执行正确性指标,如测试通过数、失败数及运行时间,还深入纳入了Halstead度量家族与圈复杂度等结构化特征,为理解代码内在复杂性提供了量化依据。特别值得关注的是,数据集引入了信息论特征如香农熵与预测熵,能够捕捉代码的随机性与不确定性。此外,维护性指数、注释比例等软工程指标进一步丰富了代码可读性与可维护性的评估视角。每一特征都经过精心选择,以支持从功能性、结构性、信息性与维护性等多个角度全面剖析生成代码的质量,尤其适用于探究大型语言模型生成策略对代码性能的影响。
使用方法
该数据集适用于基于元学习或多任务学习的代码质量预测模型训练,用户可直接通过HuggingFace Datasets库加载训练分割数据。使用时,可将特征如Halstead度量、圈复杂度及信息论熵值作为模型输入,以错误类型或测试通过率作为预测目标,训练分类或回归模型。亦可利用数据集对生成式编码模型进行逆向分析,通过对比不同生成策略下代码的复杂度与执行成功率,评估模型输出质量。研究人员还可依据任务ID进行分组,分析特定编码任务的生成特性,或结合入口点信息进行函数级语义分析。数据集的标准化格式与明确特征定义,使其易于集成到现有的机器学习和数据科学工作流中,支持快速原型开发与实验复现。
背景与挑战
背景概述
该数据集由Mercury团队于2024年创建,聚焦于代码生成模型的自动化评估与质量分析。基于Qwen3-4B模型在特定策略下的生成结果,数据集整合了代码执行正确性、静态复杂度指标与信息熵等多维度特征,旨在系统性地量化模型生成代码的可靠性、可维护性及认知负载。其研究核心在于突破传统仅依赖执行正确性的单一评估范式,为代码智能领域提供细粒度的鲁棒性评测基准,对于推动大语言模型在自动化编程场景中的可信落地具有重要意义。
当前挑战
该数据集所面临的挑战体现在两个层面:在领域问题层面,当前代码生成模型的评估常忽略代码可维护性与认知复杂度,而该数据集试图通过Halstead度量与循环复杂度等指标填补这一空白,但如何将这些静态特征与执行正确性有效融合仍是难题。在构建过程中,样本规模仅164条,数据稀疏性限制了统计分析的稳健性;同时,token_dict等结构化字段的解析与异构特征(如执行状态与熵值)之间的对齐策略缺乏标准化,增加了跨模型比较的难度。
常用场景
经典使用场景
在代码智能与软件工程研究领域,该数据集以其精细化的代码质量与执行行为标注,成为评估与提升代码生成模型、特别是大语言模型代码生成能力的经典基准。它由代码运行测试结果、多种软件度量指标(如圈复杂度、Halstead复杂度、可维护性指数)以及信息熵特征构成,为研究者提供了一个多维度的代码正确性与质量评估平台。经典使用场景包括:利用该数据集训练基于测试反馈的代码修复模型,或作为强化学习中的奖励信号来源,引导模型生成既语法正确又具备高可维护性的代码。其丰富的静态与动态特征,使得研究者能够深入剖析模型生成代码的脆弱性与鲁棒性,是代码智能领域不可或缺的评测资源。
衍生相关工作
基于该数据集丰富特征与独特结构,学术界已衍生出一系列具有影响力的经典工作。在代码生成领域,研究者利用其错误类型与测试失败记录,开发出面向错误定位与修复的专用数据集版本,推动了基于测试反馈的迭代式代码生成范式。在软件质量评估方向,该数据集的静态度量特征被广泛应用于训练代码异味检测模型与代码可读性预测模型,代表工作包括利用Halstead特征与圈复杂度进行代码重构优先级排序的研究。此外,部分工作探索了该数据集中信息熵序列与代码执行路径的关联,开创了基于信息理论的代码覆盖率预测新视角。这些衍生工作共同构建了从基础数据到前沿算法的完整知识链条。
数据集最近研究
最新研究方向
本数据集聚焦于代码生成模型的动态评估与语义分析,前沿研究方向涵盖基于执行反馈的智能体协同训练策略。通过整合Halstead复杂度、圈复杂度、可维护性指数等软件工程量化指标,以及香农熵、预测性熵等语言学特征,该数据集为探索大型语言模型在代码合成任务中的可信度与鲁棒性提供了多维评估框架。当前热点事件围绕Qwen3-4B等轻量化模型在领域微调中的表现,研究重点在于平衡计算资源与代码质量——例如利用执行通过率与测试失败数构建奖励信号,结合token分布熵值遏制模型对高频模式的过度拟合。该数据集的意义在于推动从静态语法校验向动态语义理解的范式转型,使模型训练能同时捕捉代码的结构深邃性与执行逻辑正确性,为自动化编程系统在工业级场景的落地奠定可靠性基石。
以上内容由遇见数据集搜集并总结生成



