stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g4_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g4_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 233907
num_examples: 164
download_size: 100797
dataset_size: 233907
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g4_metrics,是针对代码生成任务构建的精细化评估资源。构建过程依托于Qwen3-4B模型在特定策略(trust策略,t1温度,g4采样)下生成的代码样本,并进一步引入了静态度量分析模块。具体而言,每条样本包含任务标识、入口函数名、可执行性及正确性标签、测试通过数与失败数、运行时错误类型等执行态信息,同时整合了Halstead复杂度系列指标(如词汇量、长度、体积、难度、工作量及时间)、圈复杂度、可维护性指数、代码行数、注释占比等代码质量维度。此外,还纳入了香农熵、预测熵及最大预测熵等序列不确定性度量,以及函数定义数量与入口点重复性检查,构成了多层面、深度的代码质量分析数据集。
特点
该数据集的核心特色在于其对代码生成结果的综合性评估能力。不同于传统仅关注功能正确性的数据集,它同时囊括了执行态结果与静态度量指标,为研究代码生成模型的输出质量提供了全方位视角。数据涵盖了从基础正确性(如是否可执行、测试通过率)到代码可维护性(如圈复杂度、可维护性指数)、代码体积与注释密度、以及代码统计与信息论特性(如Halstead指标、香农熵)等多维度特征。这种设计使得研究者不仅能评判代码是否运行正确,更能深入分析生成代码的结构复杂度、可读性和信息冗余程度,从而更全面地评估模型生成能力。数据集规模为164条训练样本,每条样本均包含丰富标签,适合作为细粒度代码质量分析的研究基准。
使用方法
该数据集适用于代码生成模型的评估与对比分析。使用者可直接通过HuggingFace Datasets库加载,采用默认的'train'切分进行访问。每条样本提供了task_id、entry_point等唯一标识,便于针对特定代码任务进行关联分析。在应用时,研究人员可根据研究目标选取不同维度进行分析:例如,利用is_correct和tests_passed字段评估模型输出的功能正确性,借助cyclomatic_complexity和maintainability_index衡量代码的可维护性与复杂度,利用Halstead指标和shannon_entropy等评估代码的信息论特性。此外,该数据集也适合作为训练代码质量分类器或回归模型的标签数据集,或用于对比不同生成策略(本集为trust策略)下代码质量差异的基准资源。数据采用Parquet格式存储,兼容主流数据处理框架。
背景与挑战
背景概述
在大规模语言模型与代码生成领域,自动化代码评估与质量分析是近年来备受关注的研究方向。该数据集名为 autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g4_metrics,由 autophagycode 团队基于 Qwen3-4B 模型,采用信任策略(trust strategy)在特定训练配置下构建而成。创建时间虽未明确标注,但反映出研究者对代码生成结果进行细粒度度量的探索。核心研究问题聚焦于如何系统性地评估模型生成的代码在功能性、可执行性以及代码质量(如 Halstead 复杂度、圈复杂度、可维护性指数等)方面的表现。该数据集提供 164 个训练样本,包含丰富的静态与动态指标,为后续代码生成模型的改进与可靠性验证提供了基础数据支撑,对推动代码智能领域的定量评估具有参考价值。
当前挑战
该数据集所解决的领域问题主要集中在代码生成任务的自动化评估挑战上:传统评估仅关注功能性正确性,忽略了代码质量、可维护性与认知复杂度,而该数据集通过引入 Halstead 复杂度、圈复杂度、熵等多维指标,弥补了这一不足。构建过程中面临的挑战包括:1)如何准确获取模型生成的代码在不同执行环境下的运行结果(如时间、错误类型),需要稳定的沙箱测试框架;2)如何定义和执行有效的测试用例覆盖,以确保通过/失败计数具备代表性;3)将静态代码度量(如注释百分比、词汇量)与动态执行结果整合为统一的结构化记录,并保证数据一致性;4)在有限样本量(164 条)下,仍需保持特征维度的完备性与平衡,避免过拟合或稀疏性问题。
常用场景
经典使用场景
该数据集专为代码生成模型的行为分析与鲁棒性评估而设计,其经典场景在于量化模型在复杂编程任务中的执行性能与代码质量。通过记录任务ID、入口点、执行正确性及测试通过/失败数量等关键指标,研究者能够系统性地评估模型生成代码的功能正确性。同时,结合Halstead复杂度指标、圈复杂度、可维护性指数等软件工程度量,数据集为深入剖析生成代码的结构化质量提供了全面视角。它常用于对比不同策略(如信任度调整与多样化采样)下模型输出的稳定性,成为验证代码合成系统可靠性的基石。
解决学术问题
该数据集有效解决了两个核心学术问题:其一,如何客观评估大型语言模型在代码生成任务中的执行正确性与测试覆盖度,超越传统仅依赖匹配率的肤浅评价;其二,如何定量描述生成代码的复杂度、可维护性与信息熵,以揭示模型在逻辑推理与代码精简性上的深层规律。通过提供详尽的执行结果与多维度代码度量,它推动了从“生成即通过”向“生成且健壮”的评价范式转变,帮助学界理解模型在信任策略指导下的行为漂移,为构建更可靠的代码智能体奠定理论基础。
衍生相关工作
基于该数据集,衍生出多项经典工作:一是构建了元评估框架,利用Halstead与圈复杂度特征预测生成代码的测试通过概率;二是开发了代码质量分布可视化工具,揭示不同信任策略下执行正确性与复杂度间的权衡关系;三是催生了针对生成代码的可维护性回归模型,使开发者能提前预估长周期维护成本。此外,数据集中的词熵与预测熵指标被后续研究采纳,用于分析模型在陌生任务上的不确定性校准能力,推动了代码生成领域中信任感知评估体系的成熟。
以上内容由遇见数据集搜集并总结生成



