autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g6_metrics
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g6_metrics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含164个训练样本,专注于代码分析领域。数据集提供了丰富的代码相关特征,包括任务ID、执行入口点、可执行状态、正确性标志、通过和失败的测试数量、多种代码复杂度指标(如Halstead度量、圈复杂度、可维护性指数等)、代码行数统计(LOC、SLOC)、注释比例、词汇多样性(TTR)、熵度量以及函数定义数量等。此外,还包含代码执行错误类型和入口点重复性等实用字段。数据集适用于代码质量评估、缺陷预测、代码复杂度分析等软件工程研究任务。
创建时间:
2026-04-22
原始信息汇总
根据您提供的数据集详情页面信息,以下是对该数据集的总结。
数据集概述
该数据集名为 autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g6_metrics,托管于 Hugging Face 平台。数据集大小为 232,306 字节,下载大小为 102,858 字节。
数据集结构
数据划分
数据集仅包含一个划分:
- 训练集(train):包含 164 个样本。
特征字段
数据集包含 27 个特征字段,涵盖代码任务标识、执行结果、复杂度度量、熵值等多个维度。
| 字段名 | 数据类型 | 描述 |
|---|---|---|
task_id |
string | 任务唯一标识符 |
entry_point |
string | 代码入口函数名 |
is_executable |
bool | 代码是否可执行 |
is_correct |
bool | 代码是否正确 |
tests_passed |
int64 | 通过的测试用例数 |
tests_failed |
int64 | 失败的测试用例数 |
test_run_time_ms |
null | 测试运行时间(毫秒) |
error_type |
string | 错误类型 |
halstead_vocabulary |
int64 | Halstead 词表大小 |
halstead_length |
int64 | Halstead 长度 |
halstead_volume |
float64 | Halstead 体积 |
halstead_difficulty |
float64 | Halstead 难度 |
halstead_effort |
float64 | Halstead 工作量 |
halstead_time |
float64 | Halstead 时间 |
cyclomatic_complexity |
int64 | 圈复杂度 |
maintainability_index |
float64 | 可维护性指数 |
loc |
int64 | 代码行数 |
sloc |
int64 | 有效代码行数 |
comment_percentage |
float64 | 注释百分比 |
TTR |
float64 | 类型令牌比 |
token_dict |
string | 令牌字典 |
shannon_entropy |
float64 | 香农熵 |
mean_predictive_entropy |
float64 | 平均预测熵 |
max_predictive_entropy |
float64 | 最大预测熵 |
n_func_defined |
int64 | 定义的函数数量 |
entry_point_repeated |
bool | 入口点是否重复 |
配置信息
数据集仅包含一个默认配置(default),对应的数据文件位于 data/train-*。
搜集汇总
数据集介绍

构建方式
该数据集以代码生成任务为背景,基于Qwen3-0.6B模型在特定推理策略(trust策略)下生成的代码样本构建而成。数据集的构建过程从原始编程挑战的多个任务实例出发,对每个模型的输出进行可执行性验证与正确性判定,并记录测试通过数与失败数。同时,深入代码的软件工程与自然语言层面,计算了包括Halstead复杂度、圈复杂度、可维护性指数、香农熵等在内的多维代码度量指标,以量化代码的结构复杂度、语义丰富度与熵特征。最终形成包含164条样本的训练集,每条样本由任务标识、执行状态、测试结果及丰富代码度量共同表征。
特点
该数据集的核心特色在于其多维度、跨层次的代码质量表征体系。它既保留了传统的任务级信息如任务ID与入口函数,又引入了执行层面的细粒度结果,包括测试通过/失败数量、运行时间及错误类型。更重要的是,数据集全面整合了软件工程领域的经典复杂度度量(如Halstead系列指标、圈复杂度、可维护性指数)与信息论视角的熵度量(如香农熵、预测熵),以及代码大小与注释比例等静态属性。这种“执行结果+静态度量+信息熵”的组合模式,为从功能正确性与结构质量双重视角评估和剖析模型生成代码提供了独特而丰富的分析维度。
使用方法
该数据集主要用于训练或评估代码生成模型在功能正确性与代码质量综合维度上的表现。用户可将其加载为标准的训练集,以任务ID和入口点为输入,以代码度量与测试结果作为监督信号,训练模型生成更高质量且正确运行的代码。此外,研究者可借助数据集中丰富的复杂度与熵特征,开展代码可维护性预测、代码质量分析与模型输出特性归因等研究任务。使用时需注意数据集规模较小(164条),适合作为验证集或小样本学习的素材,也适合搭配更大规模数据集进行迁移学习或测评基准构建。
背景与挑战
背景概述
该数据集由 autophagycode 研究团队构建,旨在系统性地评估代码生成模型在代码执行正确性之外的代码质量特性。核心研究问题聚焦于:在指令微调与推理策略(如信任策略、温度参数 t=0.2、生成数量 g=6)影响下,模型生成的代码在软件工程度量指标上的表现。数据集包含 164 个训练样本,每个样本涵盖 Halstead 复杂度、圈复杂度、可维护性指数、香农熵等 20 余项代码度量指标,为代码生成领域的多维质量评估提供了精细化的基准。其创建标志着从单纯的功能正确性验证向代码可维护性、复杂度与可读性等软件工程质量维度延伸的重要探索。
当前挑战
数据集面临的核心挑战包括:1)在代码生成领域,现有基准多聚焦于代码执行正确性,而忽视了代码的复杂度、可维护性、熵值等软件工程属性,导致对生成代码质量的评估维度单一;该数据集填补了这一空白,但如何在有限样本(164 个)下确保度量指标的统计显著性与泛化性构成巨大挑战。2)构建过程中,需要从模型生成的代码中准确提取各类复杂度度量(如 Halstead 工作量与时间、圈复杂度),并确保这些软件工程度量在自动解析时的鲁棒性,例如处理代码片段不完整、变量作用域歧义等边界情形,对数据预处理管线提出了严苛要求。
常用场景
经典使用场景
在代码智能与软件工程研究领域,autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g6_metrics数据集被广泛用于评估和改进代码生成模型在复杂编程任务上的表现。研究者利用该数据集中的任务标识符、入口函数及丰富的静态代码度量指标,如圈复杂度、Halstead复杂度、维护性指数和香农熵,构建模型对代码正确性、可执行性与质量进行多维度评判。该数据集经典的使用方式是将代码生成模型的输出与其执行结果进行比对,结合测试通过数与失败数,从而精确衡量模型在功能实现与代码规范两个层面的能力。
衍生相关工作
围绕该数据集,衍生出多项重要研究工作。以代码鲁棒性增强为核心,研究者提出了结合测试时扩展与信任策略的微调方法,通过动态调整生成参数优化代码正确性。进一步的工作聚焦于代码复杂度预测,利用Halstead指标与维护性指数训练回归模型,以预估生成代码的潜在维护难度。此外,部分研究探索了通过香农熵和预测熵来量化模型在代码生成中的不确定性,从而引导模型输出更稳健的解决方案。这些衍生工作共同拓展了代码智能领域的理论边界与应用广度。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成任务的细粒度质量评估与可执行性验证,融合了代码复杂度(如Halstead度量、圈复杂度)、可维护性指数、信息熵等多维统计特征,为当前大语言模型在程序合成领域的可信评估提供了关键支撑。伴随以Qwen3-0.6B为代表的轻量级模型在代码补全与修复场景中的崛起,此类数据集正成为衡量模型生成代码鲁棒性与人类编程习惯契合度的核心基准。其价值还体现在对“水银”策略(mercury)等信任引导生成机制的剖析上,通过内置的测试通过率与错误类型分布,推动了可靠性编码与可信AI的交叉研究,尤其为自动驾驶、金融系统等高危场景下的代码安全审计奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



