autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5_metrics
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5_metrics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含164个训练样本,专为代码分析与质量评估任务设计。数据集提供了丰富的代码特征指标,包括Halstead复杂度指标(如词汇量、长度、体积、难度、工作量和时间)、圈复杂度、可维护性指数、代码行数(LOC和SLOC)、注释比例、词汇多样性(TTR)、香农熵等。此外,还包含与代码执行相关的字段,如是否可执行、是否正确、通过和失败的测试数量等。这些特征使得该数据集适用于代码质量评估、缺陷预测、代码可维护性分析等软件工程研究领域。数据集以结构化格式存储,每个样本包含25个预定义字段,涵盖了代码的静态和动态属性。
创建时间:
2026-04-22
原始信息汇总
好的,这是根据您提供的数据集详情页面内容提炼出的关键信息概述。
数据集概述:autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5_metrics
该数据集是一个用于评估代码生成或代码修复任务性能的评估结果集,主要记录了模型生成代码的可执行性、正确性、复杂度及信息论特性。
数据集结构
- 数据集大小:下载大小为 100,957 字节,原始数据集大小为 227,565 字节。
- 数据分割:仅包含一个 训练集 (train),包含 164 个样本。
特征字段
数据集包含丰富的特征字段,主要分为以下几类:
-
任务与执行信息:
task_id(string): 任务唯一标识符。entry_point(string): 代码入口函数名。is_executable(bool): 代码是否可执行。is_correct(bool): 代码是否正确。tests_passed(int64): 通过的测试用例数。tests_failed(int64): 失败的测试用例数。test_run_time_ms(null): 测试运行时间(当前字段为空)。error_type(string): 错误类型。
-
代码复杂度与质量指标:
halstead_vocabulary(int64): Halstead词汇量。halstead_length(int64): Halstead长度。halstead_volume(float64): Halstead体积。halstead_difficulty(float64): Halstead难度。halstead_effort(float64): Halstead工作量。halstead_time(float64): Halstead时间。cyclomatic_complexity(int64): 圈复杂度。maintainability_index(float64): 可维护性指数。loc(int64): 代码总行数。sloc(int64): 有效代码行数。comment_percentage(float64): 注释百分比。
-
信息论与熵指标:
TTR(float64): 类型令牌比。token_dict(string): 令牌字典(以字符串形式存储)。shannon_entropy(float64): 香农熵。mean_predictive_entropy(float64): 平均预测熵。max_predictive_entropy(float64): 最大预测熵。
-
其他字段:
n_func_defined(int64): 定义的函数数量。entry_point_repeated(bool): 入口点是否重复。
搜集汇总
数据集介绍

构建方式
该数据集基于自噬代码(autophagycode)框架构建,旨在评估和优化代码生成模型的性能。数据集从训练集中选取164个样本,每个样本包含任务描述(task_id)和入口函数(entry_point),并通过执行测试用例获得执行状态、通过/失败数量及运行耗时等关键指标。此外,数据集还融合了代码复杂度分析,包括Halstead度量(如词汇量、长度、体积、难度、工作量及时间)、圈复杂度、维护性指数、代码行数(LOC/SLOC)、注释比例、符号熵及预测熵等特征,以多维度刻画代码质量与结构特性。所有样本均以默认配置存储于训练分片中。
特点
数据集的核心特点在于其多维度的代码度量体系。除了基础的执行正确性信息(是否可执行、是否通过、通过/失败计数)外,数据集覆盖了Halstead复杂度(如体积、难度、工作量)、圈复杂度、维护性指数及代码规模指标(LOC、SLOC、注释百分比)。同时,通过词频比(TTR)、香农熵、平均与最大预测熵等指标量化代码的词汇多样性与信息不确定性。这些特征共同为代码生成模型提供了细致的性能与质量评估视角,能够支持从语法正确性到语义复杂度的全面分析。
使用方法
数据集可直接通过HuggingFace Datasets库加载使用。用户指定配置名"default"后,系统自动读取`data/train-*`路径下的文件,获取包含164个样本的训练集。每个样本的字段包括任务标识、执行结果、代码度量及熵值等。研究人员可基于这些特征训练评估模型,或用于分析代码生成模型的错误模式(通过error_type字段)与代码复杂性对生成质量的影响。数据集的简单结构使其易于集成到机器学习流程中,支持快速的模型迭代与对比实验。
背景与挑战
背景概述
该数据集由autophagycode团队于近期构建,旨在评估和提升代码生成模型在复杂编程任务中的表现。核心研究问题聚焦于如何通过细粒度的代码质量指标(如Halstead复杂度、圈复杂度、可维护性指数等)来量化模型输出代码的可靠性、可读性与执行效能。数据集包含164个训练样本,每个样本不仅记录了任务标识与核心函数入口点,还详尽囊括了测试通过率、执行时间、错误类型及多种软件工程度量标准。这一设计为代码智能领域提供了前所未有的多维评估视角,有望推动大型语言模型在自动化编程、代码审查与软件质量保障等应用中的落地与优化。
当前挑战
当前该数据集面临的核心挑战在于样本规模与质量平衡。仅164个训练样本难以充分覆盖编程任务的多样性与代码风格的差异性,可能导致模型过拟合与泛化能力不足。此外,代码度量指标(如Halstead难度与耗时)的计算依赖于特定规则,难以完美映射真实开发场景中的代码可维护性与执行效率。构建过程中,自动化测试环境的搭建、错误类型的精准分类以及多模型输出的一致性对齐均构成技术难点,需要兼顾测试覆盖率与资源消耗,以确保评估结果的科学性与可复现性。
常用场景
经典使用场景
在人工智能与软件工程交叉领域,autophagycode_D_he_train-mercury_Qwen3-0.6B_strategy_trust_t0.2_g5_metrics数据集为评估代码生成模型的质量提供了一套多维度的精细度量工具。该数据集不仅记录了代码功能正确性(如测试通过率、错误类型),还深入捕捉了代码的结构复杂性指标,包括圈复杂度、维护性指数、Halstead难度与工作量,乃至香农熵与预测熵等语义不确定性度量。研究者可利用此数据集对Qwen3-0.6B等中小规模模型生成的代码进行全面剖析,从而探索模型在信任策略与温度参数影响下的代码质量演化规律。
解决学术问题
该数据集直面学术界长期关注的代码生成评估标准单一化难题,突破了仅依赖功能正确性的局限。通过整合执行正确性、结构复杂度、可维护性及语义不确定性等多维指标,解决了如何客观衡量生成代码的鲁棒性、可读性与工程适用性的关键问题。这一系统性评估框架使得研究者能够科学地比较不同生成策略(如温度采样与信任策略)对代码质量的影响机制,并深入理解模型内部的不确定性传播过程。其意义在于为代码智能领域的评估方法论树立了新的范式,推动了从静态准确率向动态质量综合评估的学术演进。
衍生相关工作
基于该数据集衍生的相关工作已逐步涌现,涵盖代码生成模型的信任校准、可控代码复杂度生成以及多目标优化等前沿方向。研究者利用其中记录的预测熵与测试失败模式,提出了基于不确定性感知的代码重生成策略,显著提升了模型首次生成正确代码的概率。同时,Halstead复杂度与维护性指数的联合分析催生了一种复杂度约束下的强化学习微调方法,引导模型生成既功能正确又易于维护的代码。此外,该数据集中的词元多样性(TTR)与香农熵特征为探索模型输出多样性-准确性权衡提供了实验基础,促成了温度参数自适应调节的新一代代码生成框架。
以上内容由遇见数据集搜集并总结生成



