数据科学软件缺陷数据集
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edfce3bb16e0300cd4e19b&type=1
下载链接
链接失效反馈官方服务:
资源简介:
深度学习应用经常依赖于一些开源的数据科学库。本项目构建的数据科学软件缺陷数据集收集了大型开发者问答网站Stack Overflow上关于数据科学开源库numpy,pandas,scipy的语义相同的代码片段(其中一个为有性能缺陷的代码片段,其余为该缺陷的解决方案)和经过抽象语法树分析以及启发式算法得到的可替换的API调用序列(其中一个为有性能缺陷的调用序列,其余为该缺陷的解决方案)。目前,该数据集共包括5080个合法的可替换代码对和68个重复出现的可替换API序列。
提供机构:
北京大学



