five

stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stefanocarrera/autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: task_id dtype: string - name: entry_point dtype: string - name: is_executable dtype: bool - name: is_correct dtype: bool - name: tests_passed dtype: int64 - name: tests_failed dtype: int64 - name: test_run_time_ms dtype: 'null' - name: error_type dtype: string - name: halstead_vocabulary dtype: int64 - name: halstead_length dtype: int64 - name: halstead_volume dtype: float64 - name: halstead_difficulty dtype: float64 - name: halstead_effort dtype: float64 - name: halstead_time dtype: float64 - name: cyclomatic_complexity dtype: int64 - name: maintainability_index dtype: float64 - name: loc dtype: int64 - name: sloc dtype: int64 - name: comment_percentage dtype: float64 - name: TTR dtype: float64 - name: token_dict dtype: string - name: shannon_entropy dtype: float64 - name: n_func_defined dtype: int64 - name: entry_point_repeated dtype: bool splits: - name: train num_bytes: 232988 num_examples: 164 download_size: 100383 dataset_size: 232988 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
stefanocarrera
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics,专为代码自动修复与程序分析任务设计。其构建基于Qwen3-4B模型在trust策略下的推理输出,通过执行单元测试对代码修复结果进行验证,筛选出包含正确与错误案例的样本。每条数据记录了任务标识、入口函数、执行状态、测试通过数与失败数,并系统性地提取了代码的Halstead复杂度指标、圈复杂度、可维护性指数、代码行数、注释占比、词汇丰富度及信息熵等多维度软件度量特征,从而构建了一个兼顾执行结果与静态分析的复合评价体系。
特点
数据集的核心特点在于深度融合了动态执行反馈与静态代码度量。一方面,通过执行结果字段(如is_correct、tests_passed、tests_failed)直观反映模型修复的正确性;另一方面,引入了Halstead系列指标、圈复杂度、香农熵及预测熵等量化特征,能够细致刻画代码的复杂度、可读性与信息不确定性。此外,数据集还包含代码重复性检测(entry_point_repeated)、函数定义统计(n_func_defined)等字段,为研究代码生成质量与模型行为提供了丰富而精细的分析维度。
使用方法
本数据集适用于监督学习与多任务分析场景。用户可直接加载train分片中的164条样本,利用task_id和entry_point作为任务标识,以is_correct为目标变量训练代码正确性分类模型,或结合tests_passed与tests_failed进行回归分析。对于代码质量评估,则可选取Halstead指标、圈复杂度及可维护性指数作为特征,构建代码复杂度预测或质量排序系统。数据集以标准Parquet格式存储,兼容HuggingFace Datasets库,支持通过load_dataset快速加载,并允许用户根据特定字段进行过滤或切片,便于进行定制化实验与模型评估。
背景与挑战
背景概述
该数据集由 autophagycode 团队于近期构建,旨在剖析大语言模型(LLM)在代码生成任务中的行为特性与代码质量指标。核心研究聚焦于通过多维度代码度量(如 Halstead 复杂度、圈复杂度、维护性指数、Shannon 熵等)评估模型输出的可维护性与正确性,探索 LLM 在自动化编程中的可信度与鲁棒性。数据集以 Qwen3-4B 模型在 trust 策略下的生成为基底,覆盖 164 个训练样本,为理解代码生成中的认知不确定性、冗余性与结构缺陷提供了量化分析框架,对推动 LLM 在软件工程领域的可靠应用具有奠基性意义。
当前挑战
当前主要挑战在于:1) 领域问题层面,LLM 生成的代码常面临逻辑正确性与代码质量脱节的问题,如低维护性指数、高圈复杂度导致的认知负荷,需建立统一的多维度质量评估标准以替代单一执行测试;2) 构建过程中,代码度量指标(如 Halstead 耗时、预测熵)的收敛性不足,样本量仅 164 条,难以覆盖复杂代码模式的长尾分布,且 token 序列的 Shannon 熵与执行正确性之间的关联机制尚未厘清,增加了从静态特征预测动态行为的难度。
常用场景
经典使用场景
该数据集聚焦于代码生成与执行质量的联合评估,经典使用场景是面向编程任务中模型输出代码的功能正确性与软件度量分析。数据集在结构上精心设计了从可执行性、测试通过率到运行时性能的多维标注,并融合了静态代码分析指标,如圈复杂度、Halstead复杂度及可维护性指数,为评估代码的语义正确性、结构健壮性和可读性提供了坚实基础。研究者常借此构建代码质量预测模型或检验代码生成算法在真实执行环境下的表现,从而实现对生成代码的全面诊断。
衍生相关工作
基于该数据集,研究者已衍生出若干经典工作方向。例如,利用Halstead与圈复杂度特征训练代码质量回归模型,实现了对生成代码可维护性指数的精准预测;另一方向则通过TTR(类型-令牌比率)和香农熵等特征,探索代码表述的富集度与正确性之间的关联规律。此外,跨模型的代码生成一致性研究也借助该数据集的多维度量,比较不同策略下(如信任阈值调整)产生的代码在结构复杂度和执行正确性方面的差异,为代码策略优化提供了实证依据。
数据集最近研究
最新研究方向
在代码智能与软件工程交叉的前沿疆域,autophagycode_D_he_train-mercury_Qwen3-4B_strategy_trust_t1_g3_metrics数据集为大规模语言模型的代码生成质量评估提供了多维度的量化基准。该数据集整合了Halstead复杂度、圈复杂度、可维护性指数等传统软件度量指标,并创新性地引入香农熵与预测熵以刻画模型输出的不确定性,从而建立起从代码功能性(测试通过率)到结构性(复杂度与可维护性)再到信息论特征(熵值)的立体评估体系。这一设计直接回应了当前LLM代码生成研究中对可信度与鲁棒性的迫切需求——特别是在2024年基于代理的编程辅助系统频繁暴露幻觉与逻辑断裂问题的背景下,该数据集通过细粒度的错误类型标注与可执行性判定,为构建可解释、可复现的代码质量预测模型提供了关键训练资源,推动了从单纯追求通过率到兼顾代码内在质量的研究范式转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作