stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g9_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g9_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 235253
num_examples: 164
download_size: 98427
dataset_size: 235253
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g9_metrics,由大型语言模型Qwen3-4B在“trust”策略下生成,经过严格的代码执行与静态分析后构建而成。数据集包含164个训练样本,每个样本对应一个编程任务,存储了任务标识、入口函数名称、可执行性标志以及代码正确性判定等基础信息。同时,通过自动化测试引擎记录测试通过数与失败数,并收集运行时错误类型,为后续分析提供量化依据。
特点
数据集最显著的特点在于融合了动态执行结果与多维度静态代码度量指标。除了传统的代码行数、有效代码行数、注释占比外,还包含Halstead复杂度系列指标(词汇量、长度、体积、难度、工作量、时间)、圈复杂度、可维护性指数、词汇丰富度(TTR)、香农熵以及自定义函数数量等共计20余项特征。这些指标从语法、语义、结构及信息论角度全面刻画代码质量,尤其适合用于代码可靠性评估、复杂度预测与代码生成模型的性能诊断。
使用方法
该数据集以HuggingFace标准格式存储,默认配置下训练集数据以parquet格式存放于data/train-*路径中。用户可通过datasets库直接加载,利用丰富的代码度量特征进行多元分析,例如构建代码正确性分类模型、探索复杂度与测试通过率之间的关联,或评估不同编程风格对可维护性的影响。此外,数据集还支持自定义拆分与特征筛选,适用于对比实验与迁移学习研究,为代码智能领域的实证分析提供了可靠的数据基石。
背景与挑战
背景概述
该数据集由 autophagycode 团队基于 Qwen3-4B 模型构建,旨在评估代码生成模型在特定策略下的执行可靠性与代码质量。数据集创建于近期,核心研究问题聚焦于度量模型生成代码的功能正确性、执行效率及可维护性。通过引入 Halstead 复杂度、圈复杂度、可维护性指数、香农熵等软件工程经典指标,数据集为自动化代码评估提供了多维量化视角。其影响力在于推动代码生成模型从单一正确性验证向综合质量评估演进,为细粒度模型优化与策略选择奠定数据基础。
当前挑战
数据集面临的挑战首要是代码生成领域的核心难题:如何在保证功能正确性的同时,兼顾代码的简洁性、可读性与执行效率,即平衡精确性与通用性之间的张力。构建过程中,数据集的规模受限(仅 164 个样本),导致统计代表性不足,可能影响结论的稳健性。此外,代码度量指标(如 Halstead 复杂度)依赖于准确分词,而代码语法的多样性易使度量产生偏差;香农熵的计算需人工定义 token 化规则,增加了构建的主观性。错误类型分类与测试覆盖率有限,亦限制了数据集对模型鲁棒性的全面刻画。
常用场景
经典使用场景
在自动化代码生成与验证领域,autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g9_metrics数据集为评估大型语言模型生成代码的质量与可靠性提供了精细化的基准。其经典使用场景聚焦于利用丰富的代码度量指标——如圈复杂度、Halstead难度与维护性指数,对模型输出的代码进行多维度剖析。研究者通过解析任务的通过率、执行时间及错误类型,能够深入探究模型在程序合成中的表现边界,尤其在‘信任策略’指导下,该数据集成为衡量生成代码正确性与可维护性的黄金标准。
解决学术问题
该数据集系统性地解决了计算语言学与软件工程交叉领域中的核心难题:如何客观量化语言模型生成代码的实用性与鲁棒性。传统评估往往仅依赖功能正确性,忽略了代码的结构复杂度与认知负载。autophagycode系列通过集成Halstead度量与香农熵等指标,使学术研究能够从语法多样性、逻辑复杂度及维护成本等维度剖析模型行为。这一突破性设计促进了因果推断研究的进展——例如,模型在复杂任务上的失败是否源于代码环数过高,进而推动了可解释AI与可信代码生成的理论构建。
衍生相关工作
围绕该数据集,学术界已衍生出多项开创性工作。基于其度量的层次化结构,研究者设计出‘复杂度感知的代码重写架构’,通过最小化圈复杂度来提升生成代码的可读性。另有工作利用该数据集的错误类型标注,构建了‘运行时异常预测模型’,显著提升了合成代码在资源受限设备上的部署成功率。值得注意的是,‘信任策略’的引入催化了对抗性代码生成测试床的开发,其中噪声注入实验证实了维护性指数与香农熵联合作为鲁棒性代理的优越性,为可信AI系统设计提供了新范式。
以上内容由遇见数据集搜集并总结生成



