five

MALib

收藏
github2023-09-22 更新2024-05-31 收录
下载链接:
https://github.com/malibdata/MALib-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MALib是一个开源数据集,包含从Google Play收集的56,000多个移动应用及其使用的763个第三方库。该数据集可用于研究现有移动应用与第三方库之间的潜在关系,特别是第三方库的使用模式,并可用于为未开发的移动应用推荐潜在有用的第三方库。

MALib is an open-source dataset comprising over 56,000 mobile applications collected from Google Play, along with 763 third-party libraries utilized by these applications. This dataset is instrumental in investigating the underlying relationships between existing mobile applications and third-party libraries, particularly focusing on the usage patterns of these libraries. Furthermore, it serves as a valuable resource for recommending potentially useful third-party libraries for undeveloped mobile applications.
创建时间:
2020-03-11
原始信息汇总

MALib-Dataset 概述

数据集简介

MALib 是一个包含超过56,000个移动应用及其763个第三方库的开源数据集,这些应用和库主要从Google Play收集。该数据集可用于研究移动应用与第三方库之间的潜在关系,特别是第三方库的使用模式,并可用于推荐对未开发移动应用可能有用的第三方库。

数据集结构

MALib 数据集包含三个主要文件:

lib_info.csv

  • Library Id: 第三方库的唯一标识
  • Library Name: 第三方库的名称,数据来源于 Maven 和 Github

app_info.csv

  • App Id: 应用的唯一标识
  • App Name: 应用的名称及其版本,数据来源于应用的 .apk 文件的元数据

relation.csv

  • App Id: 应用的唯一标识
  • Library Id: 第三方库的唯一标识
  • 该文件记录了应用与第三方库的使用关系,1表示应用使用了对应的库,0表示未使用

数据集分析

  • 92.25%的收集应用使用了5个或以上的第三方库,平均使用11.81个库
  • 最受欢迎的1%的库在所有应用-库使用记录中占比约29.91%
搜集汇总
数据集介绍
main_image_url
构建方式
MALib数据集的构建过程体现了对移动应用生态系统的深入挖掘。该数据集从Google Play收集了超过56,000个移动应用,并识别了763个被这些应用使用的第三方库。通过解析应用的.apk文件元数据,数据集精确记录了每个应用的名称和版本信息。同时,利用Maven和GitHub等开源平台,数据集准确标注了每个第三方库的名称。应用与库之间的使用关系通过二进制属性进行表示,形成了清晰的应用-库关联矩阵。
特点
MALib数据集展现了移动应用生态中第三方库使用的显著特征。数据显示,92.25%的收集应用使用了5个或更多的第三方库,平均每个应用使用11.81个库,这反映了现代移动应用开发对第三方库的高度依赖。值得注意的是,最受欢迎的1%的库占据了约29.91%的应用-库使用记录,揭示了第三方库使用中的幂律分布特征。这种分布模式为研究移动应用生态中的库使用模式提供了重要洞察。
使用方法
MALib数据集为研究者提供了探索移动应用与第三方库关系的丰富资源。数据集包含三个核心文件:apk_info.csv记录应用信息,lib_info.csv存储库信息,relation.csv则描述应用与库的关联关系。研究者可通过分析这些文件,深入探究移动应用开发中的库使用模式,或开发基于机器学习的库推荐系统。数据集的使用方法灵活多样,既可用于统计分析,也可作为机器学习模型的训练数据,为移动应用开发领域的创新研究提供支持。
背景与挑战
背景概述
MALib数据集由Q. He、B. Li等研究人员于2020年创建,旨在探索移动应用程序与第三方库之间的潜在关系,特别是第三方库的使用模式。该数据集包含从Google Play收集的56,000多个移动应用程序及其使用的763个第三方库,为研究人员提供了一个丰富的资源,用于分析移动应用开发中的库依赖性和推荐潜在的第三方库。该数据集的研究成果发表在《IEEE Transactions on Software Engineering》上,对移动应用开发领域的研究和实践产生了重要影响。
当前挑战
MALib数据集在解决移动应用开发中的第三方库推荐问题时,面临的主要挑战包括如何准确捕捉应用程序与库之间的复杂依赖关系,以及如何从海量数据中提取有效的使用模式。在构建过程中,研究人员需要克服数据收集的复杂性,确保从Google Play和Maven等来源获取的数据具有一致性和完整性。此外,数据集中存在大量稀疏的二元关系,如何高效处理和分析这些稀疏数据也是一个技术难点。这些挑战不仅影响了数据集的构建质量,也对后续的研究应用提出了更高的要求。
常用场景
经典使用场景
MALib数据集在移动应用开发领域的研究中,主要用于分析移动应用与第三方库之间的使用模式。通过该数据集,研究人员可以深入探讨不同应用对第三方库的依赖关系,识别出哪些库在开发过程中被频繁使用,从而为开发者提供有价值的参考。此外,该数据集还可用于推荐系统,帮助开发者选择适合的第三方库,提升应用开发效率。
解决学术问题
MALib数据集解决了移动应用开发中第三方库使用模式的研究难题。通过提供大量应用与第三方库的关联数据,研究人员能够分析库的流行度、使用频率及其对应用性能的影响。这不仅有助于理解开发者对第三方库的选择偏好,还为优化库的使用提供了理论依据,推动了移动应用开发领域的学术进展。
衍生相关工作
MALib数据集自发布以来,已衍生出多项经典研究工作。例如,基于该数据集的研究提出了多样化的第三方库推荐算法,帮助开发者在复杂的库生态系统中做出更优选择。此外,该数据集还被用于分析第三方库的安全性和兼容性问题,推动了移动应用开发工具和框架的改进。这些工作不仅丰富了学术界的研究成果,也为工业界的实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作