five

bug_graph_samples

收藏
github2021-11-30 更新2024-05-31 收录
下载链接:
https://github.com/MorMundHS-MA/predicting-bugs-gnn
下载链接
链接失效反馈
官方服务:
资源简介:
用于预测源代码错误的图神经网络数据集,包含bug修复样本。

A graph neural network dataset for predicting source code errors, including bug-fix samples.
创建时间:
2021-09-28
原始信息汇总

数据集概述

数据集名称

bug_graph_samples.json.gz

数据集描述

该数据集包含用于训练图神经网络的源代码缺陷预测样本,这些样本存储在MongoDB的bugFixSamples集合中。

数据集用途

用于训练图神经网络以预测源代码中的缺陷。

数据集获取方式

数据集可通过以下命令导入MongoDB:

sh gunzip -c bug_graph_samples.json.gz | mongoimport --uri=[MONGO_DB_URI] --db data --collection bugFixSamples

数据集相关问题

目前,该模型在问题上的训练成功率不高,仅略高于随机水平。详细讨论请参阅相关硕士论文。

搜集汇总
数据集介绍
main_image_url
构建方式
bug_graph_samples数据集的构建基于源代码缺陷预测的研究背景,旨在通过图神经网络(GNN)技术捕捉代码中的潜在缺陷模式。该数据集通过分析源代码的抽象语法树(AST)和控制流图(CFG)等结构,将其转化为图数据形式。每个图节点代表代码中的基本单元,边则表示单元之间的依赖关系。数据集的构建过程涉及对大量开源项目代码的静态分析,并结合历史缺陷修复记录进行标注,从而生成带有缺陷标签的图样本。
特点
bug_graph_samples数据集的特点在于其以图结构形式表示源代码,能够有效捕捉代码的复杂依赖关系和结构特征。每个样本不仅包含代码的图表示,还附带了缺陷标签,便于监督学习任务的开展。此外,数据集的规模适中,覆盖了多种编程语言和项目类型,具有较强的通用性和代表性。然而,需要注意的是,该数据集在模型训练中的表现尚不理想,准确率仅略高于随机猜测,这为后续研究提供了改进空间。
使用方法
使用bug_graph_samples数据集时,需首先配置Python 3.7环境,并安装Poetry以管理项目依赖。数据集以JSON格式提供,可通过MongoDB导入到本地数据库中进行存储和管理。训练图神经网络时,需运行`main.py`脚本,并指定MongoDB的连接URI。数据集的图样本存储在`bugFixSamples`集合中,训练过程中模型将自动读取并处理这些图数据。尽管当前模型的训练效果有限,但该数据集为源代码缺陷预测领域的研究提供了宝贵的基础数据。
背景与挑战
背景概述
bug_graph_samples数据集由MorMundHS-MA在其硕士论文《使用图神经网络预测源代码错误》中创建,旨在通过图神经网络技术解决源代码错误预测问题。该数据集及相关代码于论文发布时一同公开,供后续研究使用。尽管该模型在训练过程中未能显著超越随机预测的准确率,但其为源代码错误预测领域提供了新的研究视角和方法论支持。该数据集的发布标志着图神经网络在软件工程领域的应用迈出了重要一步,为相关研究提供了宝贵的数据资源。
当前挑战
bug_graph_samples数据集面临的主要挑战在于其模型训练效果不佳,准确率仅略高于随机预测。这一现象可能与数据集的规模、质量或图神经网络的结构设计有关。此外,构建过程中需处理复杂的源代码图结构,如何有效提取和表示这些图数据是一个技术难点。数据集的导入和使用依赖于特定的技术栈,如MongoDB和TensorFlow,这增加了使用门槛。未来研究需进一步优化模型架构,提升数据集的多样性和代表性,以克服现有挑战。
常用场景
经典使用场景
在软件工程领域,bug_graph_samples数据集被广泛应用于源代码缺陷预测的研究中。通过构建源代码的图结构表示,研究者可以利用图神经网络(GNN)模型来捕捉代码中的复杂依赖关系和潜在缺陷模式。该数据集为开发者提供了一个标准化的实验平台,用于验证和改进基于图神经网络的缺陷预测算法。
实际应用
在实际应用中,bug_graph_samples数据集为软件开发团队提供了一种高效的工具,用于在代码审查和测试阶段提前识别潜在缺陷。通过集成基于该数据集的预测模型,开发团队可以显著减少软件发布后的缺陷修复成本,并提高软件的整体质量。
衍生相关工作
基于bug_graph_samples数据集,研究者们开发了多种改进的图神经网络模型,如GAT(Graph Attention Network)和GCN(Graph Convolutional Network),这些模型在源代码缺陷预测任务中表现出色。此外,该数据集还推动了跨领域的图神经网络研究,为其他领域的图结构数据分析提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作