stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1.1_g5_run2_metrics
收藏Hugging Face2026-05-30 更新2026-05-31 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1.1_g5_run2_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: mean_predictive_entropy
dtype: float64
- name: max_predictive_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 235982
num_examples: 164
download_size: 104680
dataset_size: 235982
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
在代码生成模型的评估与优化研究中,数据集构建的严谨性至关重要。该数据集基于Qwen3-4B模型在特定策略(strategy_trust_t1.1_g5_run2)下生成的代码产物进行构建,筛选出164条训练样本。每条样本不仅记录了任务的唯一标识符(task_id)与入口函数(entry_point),还通过执行测试来判定代码的可执行性(is_executable)与正确性(is_correct),并详细统计了通过(tests_passed)与失败(tests_failed)的测试用例数量以及运行时耗。此外,数据集融入了对代码质量的量化分析,包括Halstead复杂度系列指标、圈复杂度(cyclomatic_complexity)、可维护性指数(maintainability_index)以及代码行数(loc、sloc)和注释占比(comment_percentage)等结构属性。
使用方法
该数据集以HuggingFace Datasets格式存储,预设default配置,训练数据存放于data/train-*路径下。用户可通过load_dataset函数直接加载,并使用内置的特征名称(如cyclomatic_complexity, halstead_volume)进行过滤或统计分析。适用于比较不同模型或策略下代码生成的表现,既可用于训练代码质量预测模型,也可作为评估基准来验证代码修复或优化算法的效果。实践中,可利用tests_passed与tests_failed字段快速识别错误模式,结合复杂度指标定位低质量代码片段,从而指导后续的模型微调或策略迭代。
背景与挑战
背景概述
该数据集诞生于大语言模型代码生成能力评估的快速发展时期,由研究人员利用Qwen3-4B模型结合特定策略(trust_t1.1_g5_run2)构建而成,旨在量化模型生成代码的质量与可执行性。数据集围绕164个训练样本,系统采集了代码可执行性、测试通过率、运行时错误类型以及一系列软件工程度量指标(如圈复杂度、Halstead复杂度、维护性指数等),为理解模型在自动化编程任务中的表现提供了多维度视角。其核心研究问题在于探索模型生成代码的可靠性与复杂度特征之间的关系,对推动代码智能评估标准的确立具有潜在影响力。
当前挑战
当前面临的挑战集中于两大层面:在领域问题层面,尽管数据集涵盖了可执行性与复杂度度量,但无法完全反映代码语义正确性及真实场景下的鲁棒性需求,例如缺乏对逻辑错误或安全漏洞的标注;在构建过程中,样本量仅164条且来源于单模型单策略,导致数据多样性不足,易引入评估偏差。此外,度量指标(如维持性指数)的自动化计算可能受限于工具精度,而运行时间(test_run_time_ms)字段为null也暴露了执行环境与时间记录的缺失问题,影响可重复性评估。
常用场景
经典使用场景
在代码智能与软件工程研究领域,近年来对代码可维护性、复杂度与执行正确性的联合建模成为了一个备受关注的交叉方向。autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1.1_g5_run2_metrics 数据集融合了代码执行结果、Halstead 复杂度指标、圈复杂度、可维护性指数以及预测熵等多维特征,为代码质量分析提供了丰饶的数据土壤。研究者可借此数据集开展代码缺陷预测与可维护性评估的经典实验,例如通过分析测试通过数与圈复杂度的关联,探索高复杂度代码片段的脆弱性规律,或利用香农熵与令牌分布特征来建模代码的语义多样性与可解释性之间的微妙平衡。该数据集还支持对大规模语言模型生成的代码进行多角度审计,为评估模型在代码逻辑正确性之外的代码内在属性表现提供了标准化的评测基准。
解决学术问题
该数据集的构建切实回应了学术界在自动化代码评估领域中长期存在的两大挑战:一是缺乏同时涵盖执行结果与多种结构、语义复杂度指标的联合标注数据,二是缺少对模型生成代码进行细致、多维可解释性评估的标准化语料。通过引入 Halstead 体系中的词汇量、长度、难度与工作量指标,结合圈复杂度和可维护性指数,数据集使研究者能够系统性地探讨代码的认知负载与执行正确性之间的关联,进而回答‘什么样的代码更易于维护且不易出错’这一核心学术问题。此外,香农熵与最大预测熵等特征的引入,为量化代码的不可预测性与潜在风险提供了新颖视角,推动了代码度量由单一正确性向语义丰富度与稳健性的多维范式转变,为代码质量模型的数学表达注入了新的理论源泉。
实际应用
在产业界,该数据集为持续集成与代码审查流水线的智能化升级提供了坚实的基石。软件开发团队可以基于数据集中丰富的代码度量特征,构建定制化的代码健康度预警系统,例如通过维护性指数与圈复杂度的联动分析,自动标记那些在未来迭代中极可能积累技术债务的高风险模块。在模型驱动的代码生成服务中,该数据集可作为反馈闭环的校准基准,帮助平台甄别语言模型在生成简洁高效代码之外,是否同时保持了低预测熵与高可理解性。此外,教育领域的自动编程作业评估系统也可从中受益,利用 Halstead 时间与努力度指标为学生的解题方案提供超越‘对与错’的认知负荷评估,从而为学生提供更具建设性的编程能力提升建议。
数据集最近研究
最新研究方向
随着大语言模型在代码生成与自动修复领域的迅猛发展,评估生成代码的可执行性、正确性与软件工程质量已成为前沿热点。该数据集聚焦于模型输出代码的多维度度量,不仅涵盖传统的测试通过率与错误类型,更创新性地引入Halstead复杂度、圈复杂度、可维护性指数等软件工程指标,以及香农熵与预测熵等语言模型不确定性度量,为探究代码生成模型的鲁棒性与可信度提供了系统化分析框架。这一研究方向紧密关联当前AI辅助编程工具(如GitHub Copilot、Qwen-Coder)的可靠性验证需求,通过细粒度度量揭示模型在复杂编程任务上的行为特征,对推动可解释、高可靠的代码智能系统构建具有深远意义。
以上内容由遇见数据集搜集并总结生成



