stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 222960
num_examples: 164
download_size: 96568
dataset_size: 222960
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g5_metrics,由HuggingFace平台托管,是针对代码生成任务中模型输出结果进行多维度质量评估的评测数据集。数据集基于Qwen3-4B模型在“trust”策略下,经t1温度参数与g5生成轮次所产出的代码样本构建而成。每条样本包含任务标识、执行正确性标志、通过与失败的测试数量等基础指标,并融合了代码静态分析特征,涵盖Halstead复杂度系列(如词汇量、长度、体积、难度、工作量及时间)、圈复杂度、可维护性指数、代码行数、注释占比、词元类型比值、Shannon熵与模型预测熵等测度,从语法结构、认知负荷与可读性等多角度对代码质量进行量化表征。
特点
本数据集的核心特色在于其评估维度的丰富性与跨层次整合能力。除基本的代码执行正确性(is_correct)与测试通过率(tests_passed)外,数据集纳入了完整的Halstead度量体系与圈复杂度指标,能够从算法体积与逻辑复杂性两个层面刻画代码难度。同时,可维护性指数、注释百分比与词元类型比值等特征为代码的可读性与工程化程度提供了量化视角。更前沿的是,数据集中包含了Shannon熵与模型预测熵,揭示了代码序列的信息不确定性,为理解语言模型在代码生成中的不确定性行为提供了独特窗口。这种结合传统软件度量与认知度量特征的复合结构,使数据集适宜于代码质量预测、模型输出可靠性评估及代码复杂度与语言熵关系研究。
使用方法
数据集以parquet格式存储,共包含164条训练样本,总大小为234KB,便于在轻量级环境中使用。研究人员可直接通过HuggingFace Datasets库加载,指定配置名称为default后获取训练集。每条样本以字典形式呈现,字段包含字符串、整型、浮点型及布尔型数据,适用于分类、回归或排序任务。建议使用时将is_correct或tests_passed作为监督标签,结合halstead_vocabulary、cyclomatic_complexity、shannon_entropy等特征构建预测模型,或利用mean_predictive_entropy与max_predictive_entropy探索模型不确定性对代码生成质量的影响。该数据集也便于与同系列其他策略配置对比,用于多维度模型行为分析。
背景与挑战
背景概述
在程序合成与代码生成领域,如何精准评估模型生成的代码质量始终是核心挑战。该数据集由Qwen团队于2025年创建,源于对Qwen3-4B模型在mercury基准上输出代码的深度分析,旨在通过多维软件度量指标揭示代码的可执行性、正确性、复杂度与可维护性。数据集聚焦于信任策略(strategy trust)下的t1_g5子集,包含164个训练样本,记录了包括Halstead复杂度、圈复杂度、维护性指数、香农熵等在内的一系列量化特征。这一工作为理解大型语言模型生成代码的结构特性与潜在缺陷提供了宝贵的实证基础,对推动代码生成评估从简单的功能性验证迈向综合性质量度量具有重要意义。
当前挑战
该数据集所应对的领域挑战在于,当前代码生成评测多依赖执行正确性单一指标,难以捕捉代码在可读性、效率和维护性等方面的深层问题。数据集构建过程中面临两大难点:一是如何选取并计算反映代码内在结构的度量标准(如Halstead度量与圈复杂度),确保其能有效区分不同质量的生成代码;二是需处理模型输出代码在环境适配中的非确定性错误,例如因依赖缺失或运行时资源限制导致的执行失败,这些被编码为error_type字段,增加了数据清洗与标注的复杂性。此外,仅164条样本的规模限制了模型的泛化能力评估,亟需扩展以覆盖更多编程语境与错误类型。
常用场景
经典使用场景
在编程语言与软件工程研究领域,该数据集为评估与优化大语言模型(LLM)在代码生成任务中的表现提供了重要资源。具体而言,它聚焦于模型生成的代码片段是否能够通过预设的测试用例、是否具备可执行性,并深入剖析错误类型与代码质量指标。研究者可利用该数据集作为基准,对LLM生成的代码进行系统性验证与缺陷分析,从而推动代码智能生成技术的精细化评估。
衍生相关工作
该数据集衍生了一系列关于代码质量度量与生成模型鲁棒性的经典工作。研究者基于此构建了代码可靠性的多维度评价体系,开发了针对错误类型的分类器,并探索了测试覆盖率与代码复杂度之间的关联。这些工作不仅丰富了代码生成的评估方法论,还催生了新的少样本学习策略与对抗性训练框架,显著推动了大模型代码生成领域的规范化发展。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成模型的鲁棒性与可信度评估,通过整合代码可执行性测试、Halstead复杂度、圈复杂度及信息熵等多维质量指标,为探究大语言模型在自动化编程任务中的输出可靠性提供了细粒度分析框架。当前研究热点在于利用此类结构化评测数据,揭示模型生成代码的语法正确性、逻辑完备性与计算效率之间的深层关联,尤其结合错误类型分类与预测熵值差异,系统性地度量模型从简单指令到复杂逻辑推理的泛化能力。这一方向与AI代码助手的工业落地需求紧密相关,其意义在于为训练更透明、可解释的编程智能体奠定实证基础,并推动代码生成领域的标准评估范式从单一通过率向多维度质量监督演进。
以上内容由遇见数据集搜集并总结生成



