stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10_metrics
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_scm_t0.2_g10_metrics
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: task_id
dtype: string
- name: entry_point
dtype: string
- name: is_executable
dtype: bool
- name: is_correct
dtype: bool
- name: tests_passed
dtype: int64
- name: tests_failed
dtype: int64
- name: test_run_time_ms
dtype: 'null'
- name: error_type
dtype: string
- name: halstead_vocabulary
dtype: int64
- name: halstead_length
dtype: int64
- name: halstead_volume
dtype: float64
- name: halstead_difficulty
dtype: float64
- name: halstead_effort
dtype: float64
- name: halstead_time
dtype: float64
- name: cyclomatic_complexity
dtype: int64
- name: maintainability_index
dtype: float64
- name: loc
dtype: int64
- name: sloc
dtype: int64
- name: comment_percentage
dtype: float64
- name: TTR
dtype: float64
- name: token_dict
dtype: string
- name: shannon_entropy
dtype: float64
- name: n_func_defined
dtype: int64
- name: entry_point_repeated
dtype: bool
splits:
- name: train
num_bytes: 256592
num_examples: 164
download_size: 104292
dataset_size: 256592
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
stefanocarrera
搜集汇总
数据集介绍

构建方式
该数据集基于自噬代码生成任务构建,聚焦于编程问题解答的评测场景。其构建流程以Qwen3-4B模型为生成基底,采用策略采样方法(strategy_scm),设置温度为0.2,并针对每个编程任务生成10个候选解决方案。数据集包含164条训练样本,每条样本记录了任务标识(task_id)、入口函数(entry_point)以及代码是否可执行(is_executable)、正确性(is_correct)等核心评测指标。此外,通过静态分析手段,系统性地提取了代码的Halstead复杂度、圈复杂度(cyclomatic_complexity)、可维护性指数(maintainability_index)以及香农熵(shannon_entropy)等多维度度量特征,形成对代码质量与结构特性的全面刻画。
特点
该数据集的显著特征在于其多维度的代码度量指标体系。除了基础的执行结果和测试通过数(tests_passed/failed)外,数据集深入集成了软件工程领域的经典度量,如Halstead系列指标(词汇量、长度、工作量等)和McCabe圈复杂度,为评估生成代码的复杂度和可维护性提供了量化依据。同时,数据包含代码的注释比例(comment_percentage)、代码行数(loc)与逻辑行数(sloc)、词元类型-词元比率(TTR)以及词元频率字典(token_dict),这些特征共同支持对代码风格、可读性及信息密度的多角度分析。此外,数据以轻量级规模(256KB)呈现,便于快速加载与实验。
使用方法
该数据集适用于编程代码生成模型的训练与评测任务。用户可通过HuggingFace Datasets库直接加载,使用默认配置(config_name='default')读取训练分割数据。每条样本提供了丰富的代码上下文信息,既可用于监督学习中的代码生成质量评估,也可用于分析不同温度或采样策略对输出代码复杂度与正确性的影响。开发者可依据'is_correct'和'tests_passed'字段筛选高质量代码样本,或利用'cyclomatic_complexity'等指标对模型输出进行可维护性约束优化。数据集结构清晰,支持灵活的过滤与变换操作,便于集成至代码智能研究流水线。
背景与挑战
背景概述
在代码生成与自动修复领域,评估模型生成代码的质量一直是核心研究问题。该数据集由基于Qwen3-4B模型的策略优化实验生成,融合了mercury评测框架与自一致性采样策略(SCM),旨在探索大语言模型在编程任务中的表现边界。数据集构建于2025年,提供了包括Halstead复杂度、圈复杂度、可维护性指数及香农熵在内的多维软件度量指标,为深入理解模型生成代码的结构特性与执行效率提供了量化依据。该数据集在代码智能领域具有重要影响,推动了对生成代码可执行性、正确性与软件工程属性之间关系的系统研究。
当前挑战
数据集面临的挑战首先在于领域问题层面:代码生成任务不仅要求模型理解自然语言描述并输出正确代码,还需确保代码的可执行性、低错误率及高效的运行时表现。现有评估体系常忽略代码的软件工程属性,如可维护性与复杂度,本数据集虽引入多维度量,但如何将这些指标综合成统一的评估标准仍是难题。在构建过程中,挑战包括:模型采样策略(SCM)的参数调优(如温度系数t0.2与采样数g10)对生成代码多样性与正确性的平衡问题;大规模评测时的高计算成本与时间开销;以及代码度量指标(如Halstead努力度与逻辑圈复杂度)在自动修复场景下的稳定性与解释性不足。
常用场景
经典使用场景
该数据集聚焦于代码质量评估与修复任务的自动化研究,特别适用于分析由大语言模型生成的代码段在正确性、复杂性与可维护性等多维度的表现。经典使用场景包括:利用Halstead复杂度指标、圈复杂度、可维护性指数等软件度量特征,结合测试通过率与错误类型信息,构建代码缺陷预测模型。研究者可基于此数据集训练分类器,区分高可靠与低可靠代码,或通过回归分析揭示代码复杂度与执行效率间的内在关联,为自动化代码审查与质量保障提供数据支撑。
解决学术问题
该数据集有效解决了软件工程领域中‘大模型生成代码的可信性评估’这一学术难题。传统研究多依赖人工标注或单一测试指标,难以全面刻画代码质量。本数据集集成了执行结果(如测试通过数、失败数、运行时错误类型)与静态度量(如词汇量、长度、体积、难度、香农熵等19项指标),使研究者得以从可执行性与结构性双重视角出发,系统探究生成代码的鲁棒性与可维护性。其意义在于推动建立从代码生成到质量验证的闭环评估框架,为后续的代码修复策略优化和模型训练数据筛选奠定方法论基础。
衍生相关工作
该数据集衍生出一系列经典研究,包括基于多指标融合的代码缺陷预测模型,以及利用测试通过率与错误类型构建的失败代码特征库,用于指导大语言模型针对性学习修复模式。相关工作中,研究者常将该数据集作为基准,对比不同复杂度度量组合在代码可修复性预测上的表现,或将其特征作为强化学习奖励函数的组成部分,驱动代码生成模型在优化过程中同时提升代码正确性与结构优雅性。此外,数据集中的可执行性标签和运行时信息,被广泛用于构建代码语义等价性判别任务,推动了自动化程序修复领域的评估标准化进程。
以上内容由遇见数据集搜集并总结生成



