stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 227879
num_examples: 164
download_size: 96419
dataset_size: 227879
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集名为 autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g6_metrics,是基于代码生成与评估任务构建的精细化样本集合。其构建过程依托于 Qwen3-4B 模型,在“trust”策略下于温度参数 t=1 及生成六轮次(g6)的条件下,对名为 mercury 的训练子集进行推理与预测。数据集中每个样本均经由自动化执行测试流水线,通过判断代码是否可执行、是否通过测试、记录通过与失败的测试数量及运行耗时,实现对生成代码的功能完整性进行严格校验,从而确保所收集样本属性与模型行为之间具备可追溯的对应关系。
特点
该数据集的一大特点在于其丰富的软件工程质量量化指标。除了基础的执行结果反饋(如 is_correct、tests_passed 等字段),还纳入了 Halstead 复杂度系列指标(包括词汇量、长度、体积、难度、工作量与耗时)、圈复杂度(cyclomatic_complexity)、可维护性指数、代码行数与有效行数、注释占比、文本类型—词汇比(TTR)、香农熵及预测熵等语言学与结构学测度。这些特征为研究者提供了从代码可读性、复杂性到信息量等多维度剖析模型生成代码质量的素材,支撑深入的模型行为分析。
使用方法
本数据集以 HuggingFace Datasets 格式存储,包含单一 train 分区,内含 164 个样本。用户可通过 datasets.load_dataset() 函数直接加载,并指定配置名为 'default' 以获取数据。加载后,每条记录呈现为包含任务标识、代码入口点、执行与复杂度特征的结构化字典。适用于训练代码质量评估模型、分析大语言模型在代码生成场景下的行为偏好,或作为度量模型生成代码可维护性与复杂性的基准测试集。使用者可直接依据 is_correct 字段划分正负样本,或利用各复杂度字段构建回归分析任务。
背景与挑战
背景概述
该数据集由autophagycode团队于近期构建,旨在评估代码生成模型在复杂编程任务中的执行准确性、代码质量与可靠性。其核心研究问题聚焦于量化模型生成代码的功能正确性(如测试通过率)、结构复杂度(如圈复杂度、Halstead度量)以及可维护性(如维护性指数)之间的内在关联。通过引入Qwen3-4B模型在信任策略下的输出,数据集为代码智能领域提供了细粒度的多维度评测基准,有助于推动代码生成模型从单纯的功能验证向全面质量评估演进。
当前挑战
数据集面临的核心挑战包括:领域问题层面,现有数据集多关注代码语法正确性或功能完备性,难以全面刻画生成代码的工程可交付性,尤其是缺乏对代码可维护性与执行效率的综合评判标准;构建过程中,需解决代码静态度量(如Halstead复杂度)与动态执行结果(如测试通过率、运行时间)之间的信息对齐问题,同时处理多轮生成导致的代码变体噪声,并确保跨任务场景下评估指标的一致性与可复现性。
常用场景
经典使用场景
在代码智能与软件工程交叉领域中,该数据集专为代码生成模型的鲁棒性与代码质量评估而设计。其核心场景聚焦于通过结构化元数据(如圈复杂度、Halstead复杂度、可维护性指数等)与执行结果(测试通过数、错误类型)的联合分析,对大型语言模型生成的代码段进行多维度的质量审查。研究者可借助该数据集量化模型在生成可执行、可测试代码时的可靠性,并深入剖析代码的复杂度特征与执行正确性之间的内在关联。
解决学术问题
该数据集有效回应了生成式代码模型在学术研究中面临的三大关键问题:如何系统化评估生成代码的功能正确性、如何衡量代码的可维护性与结构质量,以及如何构建预测代码执行失败风险的指标。通过整合执行结果与20余项软件度量指标,它使得对模型生成代码的“脆弱性”与“可理解性”进行联合建模成为可能,为研究代码生成的鲁棒性退化现象及复杂度幻觉提供了宝贵的实证基础,显著推动了自动化软件工程评估方法的科学化进程。
衍生相关工作
该数据集的衍生工作涵盖了多个前沿研究方向,包括基于Halstead复杂度的代码生成质量预测模型、融合执行状态与圈复杂度的多任务学习框架,以及引入代码注释密度与熵度量的可解释性评估方法。近年来,已有研究工作利用该数据集开发了能够根据测试失败模式与复杂度特征联合推断代码修复策略的自适应系统,并衍生出专门用于分析大语言模型代码生成过程中的“过置信”现象与复杂度对称性的分析方法,进一步拓展了代码智能评估的理论边界。
以上内容由遇见数据集搜集并总结生成



