stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7_metrics
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 251903
num_examples: 164
download_size: 104522
dataset_size: 251903
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于自噬代码(AutophagyCode)机制构建,以Qwen3-4B模型为基座,采用策略型采样(strategy sampling)与SCM(Structural Causal Model)框架相结合的方式生成训练样本。数据经由温度系数t=0.2的采样策略,并经过7次生成迭代(g7)后,通过自动化测试系统筛选出符合正确性要求的代码片段。每条样本不仅包含任务标识与入口点信息,还记录了详尽的执行状态指标,如测试通过/失败数量、运行时间等,从而形成结构化的代码评估数据。
特点
数据集显著特点在于融合了代码质量的多维评估指标,涵盖Halstead复杂度(词汇量、长度、体积、难度、工作量及时间)、圈复杂度、可维护性指数、代码行数(LOC/SLOC)及注释占比等。此外,引入TTR(Type-Token Ratio)、Shannon熵以及词频字典(token_dict),为代码风格的多样性与信息量分析提供量化基础。所有样本均包含是否可执行、是否正确以及入口点是否重复等布尔标识,便于进行精细化过滤与实验控制。
使用方法
适用于训练代码生成模型、评估代码质量及进行无监督/半监督微调。研究者可利用is_executable与is_correct字段筛选可用样本,或根据tests_passed与tests_failed比值分析模型输出可靠性。Halstead与圈复杂度等指标可用于模型输出与人类代码的质量对比,或作为奖励信号融入强化学习流程。数据集的164条训练样本以parquet格式存储,可直接通过HuggingFace datasets库加载,并支持按需进行特征工程与子集划分。
背景与挑战
背景概述
该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7_metrics,由大型语言模型Qwen3-4B在特定策略(scm策略,温度参数t=0.2,生成7次)下生成,聚焦于自噬相关基因的代码自动补全与正确性评估。创建于大规模语言模型与生物信息学交叉领域蓬勃发展的时期,核心研究问题为评估大模型在生成生物医学代码(尤其是自噬相关功能)时的准确性与代码质量。该数据集通过记录任务标识、入口点、可执行性、正确性、测试通过失败数及多种代码复杂度指标(如Halstead度量、圈复杂度、可维护性指数、香农熵等),为量化大模型在代码生成任务中的表现提供了细粒度评测基准。其影响力在于推动代码生成模型在特定生物学领域的应用评估与优化。
当前挑战
数据集面临的挑战涵盖领域问题与构建过程两方面。在领域问题层面,需要解决的核心挑战是大型语言模型在精准理解并生成自噬相关生物学代码时的领域特异性,例如确保代码逻辑符合分子机制、函数命名准确反映基因功能,以及避免因生物学术语歧义导致的语法或语义错误。在构建过程中,挑战包括低资源下的数据稀疏性(仅164条训练样本),导致模型难以泛化;从大模型生成的代码中难以有效过滤不可执行或逻辑错误的代码片段;代码质量的多维度度量(如可维护性、复杂度、熵等)需在有限样本中保持评估一致性;以及如何平衡生成多样性(高温度参数)与代码正确性之间的矛盾。
常用场景
经典使用场景
autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7_metrics数据集汇聚了通过策略性代码合并(SCM)方法生成的高质量代码样本,每个样本均附带详尽的代码度量指标,包括Halstead复杂度、圈复杂度、可维护性指数以及香农熵等。该数据集最为经典的使用场景在于评估和对比不同代码生成模型(如Qwen3-4B)的输出质量,研究者可借助其中的通过/失败测试结果、执行时间与错误类型等字段,系统地分析模型生成代码的功能正确性、执行效率及鲁棒性,为代码智能领域的模型优化提供坚实的数据基础。
实际应用
在实际应用中,autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g7_metrics数据集可作为工业级代码审查与质量保障系统的核心基准。开发团队可依托该数据集构建自动化代码评审管道,利用可维护性指数和圈复杂度等指标对提交代码进行风险预警;同时,该数据集能够为企业级AI代码助手(如基于Qwen3的辅助编程工具)提供细粒度的质量反馈机制,通过比较生成代码与真实项目代码的度量分布,实时调优生成策略,从而在保障代码功能正确的前提下,显著提升代码的可理解性和后期维护效率,降低技术债务累积风险。
衍生相关工作
该数据集衍生了一系列具有深远影响的经典工作,包括针对代码生成模型的策略性合并方法(SCM)的优化研究,其中学者们基于该数据集中的多轮生成与选择日志,进一步提出了自适应温度调节与动态轮次策略,显著提升了代码生成的首次通过率。此外,基于该数据集的多维度度量体系,研究者开发了全新的代码质量预测模型,能够在不执行代码的情况下,仅凭结构特征即可高精度预测测试通过概率,大幅降低了大规模代码评估的计算开销。这些衍生工作不仅深化了代码智能领域的理论认知,也为构建更加可靠与高效的自动化编程系统奠定了实验基础。
以上内容由遇见数据集搜集并总结生成



