five

autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与代码分析或编程任务相关的结构化数据,共164个训练样本。数据集提供了丰富的代码特征指标,包括任务ID(task_id)、入口点(entry_point)、可执行状态(is_executable)、正确性(is_correct)、测试通过/失败数量(tests_passed/tests_failed)、各种代码复杂度指标(如Halstead复杂度指标、圈复杂度cyclomatic_complexity)、可维护性指数(maintainability_index)、代码行数统计(loc/sloc)、注释比例(comment_percentage)、词汇多样性(TTR)、熵值度量(shannon_entropy)等24个特征字段。数据集总大小为259034字节,下载大小为109329字节。虽然具体应用场景未明确说明,但从特征字段可以推断该数据集适用于代码质量分析、程序正确性预测、软件度量研究等相关任务。
创建时间:
2026-04-22
原始信息汇总

好的,根据您提供的数据集详情页面信息,以下是对该数据集的总结:

数据集概述

该数据集名为 stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t0.2_g8_metrics,托管于 Hugging Face。

数据集规模

  • 总样本数:164 条
  • 数据集大小:259,034 字节
  • 下载大小:109,329 字节
  • 数据分割:仅包含训练集(train)

特征字段

数据集包含多种与代码质量和执行相关的特征,具体如下:

特征名 数据类型 说明
task_id string 任务标识符
entry_point string 入口点函数名
is_executable bool 代码是否可执行
is_correct bool 代码是否正确
tests_passed int64 通过的测试数量
tests_failed int64 失败的测试数量
test_run_time_ms null 测试运行时间(毫秒)
error_type string 错误类型
halstead_vocabulary int64 Halstead 词汇量
halstead_length int64 Halstead 长度
halstead_volume float64 Halstead 容量
halstead_difficulty float64 Halstead 难度
halstead_effort float64 Halstead 工作量
halstead_time float64 Halstead 时间
cyclomatic_complexity int64 圈复杂度
maintainability_index float64 可维护性指数
loc int64 代码行数
sloc int64 源码行数
comment_percentage float64 注释百分比
TTR float64 类型令牌比
token_dict string 令牌字典
shannon_entropy float64 香农熵
mean_predictive_entropy float64 平均预测熵
max_predictive_entropy float64 最大预测熵
n_func_defined int64 定义的函数数量
entry_point_repeated bool 入口点是否重复

配置与数据文件

  • 配置名称default
  • 数据文件路径data/train-*(支持通配符匹配)
搜集汇总
数据集介绍
main_image_url
构建方式
自监督代码生成与可信度评估的交叉验证是当前代码智能领域的前沿范式,该数据集正是基于这一理念构建而成。具体而言,数据集以开源代码竞赛平台上的编程题目为原始任务,采用Qwen3-4B作为基础生成模型,在温度系数为0.2、生成长度为8等超参数配置下,通过迭代式信任策略对模型输出进行筛选与标注。每条数据记录不仅包含任务标识、入口函数及其可执行性与正确性标签,还深度融合了代码复杂度度量体系,如Halstead复杂度指标、圈复杂度、可维护性指数,以及熵值类语言统计特征,从而构建了一个多维度、结构化的代码质量画像。
特点
该数据集在代码评估领域展现出显著的前沿特性,其核心优势在于对代码质量的多层次量化表征。除基础的编译与测试通过率外,数据集创新性地纳入了Halstead词汇量、长度、难度与工作量等经典软件工程指标,同时融合了圈复杂度与可维护性指数,将静态代码分析提升至认知复杂度层面。更进一步,通过引入香农熵、平均预测熵及最大预测熵等来自模型置信度的动态度量,数据集实现了生成模型内部不确定性向代码可信度的映射。此外,词性标记比例与词汇多样性等统计属性共同构成了代码语言特征的完整拼图。
使用方法
该数据集在代码生成与质量评估领域具有广泛的应用弹性。研究者可将其作为基准测试集,用于评估不同预训练代码模型在基础编程任务上的生成准确率与代码可维护性;亦可基于其丰富的Halstead与圈复杂度指标,训练代码质量预测模型,实现自动化代码评审。在可信生成研究方向上,数据集中的序列化token分布与熵值特征为探索模型置信度与输出质量之间的相关性提供了关键数据支柱。使用时,用户可直接通过HuggingFace Datasets库加载train分割,利用task_id与entry_point字段进行任务匹配,并借助tests_passed与tests_failed字段作为监督信号开展分类或回归实验。
背景与挑战
背景概述
该数据集于近期构建,由研究团队基于Qwen3-4B模型在代码生成任务中引入“信任策略”(strategy_trust)机制生成,旨在探索大语言模型在自监督或半监督代码补全与验证场景中的表现。核心研究问题集中于如何通过度量代码的复杂度、可维护性及模型预测的不确定性(如香农熵、预测熵)来评估生成代码的可靠性。这些指标涵盖Halstead复杂度、圈复杂度、维护性指数等经典软件工程度量,以及执行层面的测试通过率与错误类型。通过整合这些维度,数据集为理解模型生成代码的鲁棒性提供了多视角的分析基础,对自动化代码评审与可信代码生成领域具有潜在影响力。
当前挑战
所解决的核心领域挑战在于,大语言模型生成的代码往往缺乏可解释的可靠性度量,传统基于测试通过率的评估难以揭示代码内在的复杂性与维护性问题。该数据集面临的构建挑战包括:1)如何从有限样本(164条训练实例)中提取具有统计意义的度量特征,避免因数据稀疏性导致的偏差;2)整合多维度软件工程指标(如Halstead度量、圈复杂度、维护性指数)与模型预测熵的关联分析,需要设计合理的归一化与融合策略;3)处理执行层面数据的缺失(如test_run_time_ms为空值)可能影响完整性,需在后续版本中补充运行时特征以增强评估的全面性。
常用场景
经典使用场景
在代码生成与程序合成领域,自动评估生成代码的质量始终是核心挑战之一。该数据集专为代码生成模型的评测与优化而设计,经典使用场景聚焦于多维度代码质量分析:通过记录每个生成样本的测试通过率、运行时间、错误类型等执行指标,结合Halstead复杂度、圈复杂度、可维护性指数等静态代码度量,研究者能够系统性地衡量生成代码的功能正确性与内在质量。此外,数据集还纳入了香农熵、预测性熵等代码序列的统计特征,为深入理解模型在代码空间中的行为模式提供了数据基础。这一设计使得它成为训练代码质量预测模型、开展代码生成模型弱点分析以及构建自动化代码审查辅助工具的绝佳数据支撑。
衍生相关工作
围绕该数据集已涌现出一系列富有启发性的衍生工作。在评测基准层面,研究者借鉴其多维度指标设计,构建了覆盖更多编程语言与任务类型的大型代码生成质量评估框架,推动了代码智能评测标准的统一。在模型优化方面,有工作利用数据集中Halstead度量与测试结果的关联性,提出了一种基于代码复杂度的对比学习预训练策略,显著提升了生成代码的可维护性。此外,部分团队探索了将数据集的代码熵特征与深度代码理解模型相结合,开发出能够自动识别生成代码中潜在逻辑缺陷的检测器。在自动化软件工程领域,该数据集还启发了基于多目标优化的代码生成路由机制,根据任务特点动态选择最适宜的生成策略,从而在正确性与代码质量之间取得最佳平衡。
数据集最近研究
最新研究方向
当前,代码生成与自动化编程正经历从功能正确性向多维质量评估的范式跃迁。该数据集以Qwen3-4B模型在信任策略下的推理输出为样本,融合了Halstead复杂度、圈复杂度、维护性指数等结构化度量,以及香农熵、预测熵等代码不确定性指标,构建了一个面向自治代码执行验证的精细评估体系。前沿研究方向聚焦于利用代码静态特征与动态执行结果的多模态关联,揭示大模型生成代码的语义可靠性、可维护性及潜在缺陷模式,进而推动代码智能领域从“能否运行”向“是否可靠、可维护、可演进”的深层次质量保障演进。该数据集为代码大模型的鲁棒性测试与可信代码合成提供了关键的基准资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作