stackoverflow-android-dataset
收藏github2020-09-06 更新2024-05-31 收录
下载链接:
https://github.com/dkavaler/stackoverflow-android-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于研究论文:关于近期API的问题在Stack Overflow上得到的答案数量、质量和延迟。数据集包含了多个文件,如post_data.gz、api_data.gz等,详细记录了APK信息、API调用次数、API变更历史等。
This dataset is utilized for research papers focusing on the quantity, quality, and latency of answers received on Stack Overflow regarding recent API issues. The dataset comprises multiple files, such as post_data.gz and api_data.gz, which meticulously document APK information, API call frequencies, and API change histories, among other details.
创建时间:
2017-06-07
原始信息汇总
数据集概述
数据集文件
post_data.gz (post_data.csv)
- 列对应:论文中的表1。
api_data.gz (api_data.csv)
- 列信息:
apk:从Google Play商店收集的APK名称。gatherdate:APK被爬虫收集的日期。api:API调用的完全限定类名。callcount:指定APK中对给定API的调用次数。
apk_list.csv
- 内容:用于分析的所有唯一APK的列表。
android_api_change_dates.csv
- 内容:研究的每个Android API级别的发布日期列表。
android_api_changes_wdate.csv
- 列信息:
level:给定API变更的API级别。date:给定API变更的日期。fully_qualified_classname:API的完全限定类名。change_type:1(添加)、2(移除)或3(变更)。
api_callcounts.gz
- 列信息:
apk:APK名称。api:计数对应的API。callcount:给定APK中对给定API的调用次数。
links_all.RData
- 内容:包含每个链接的Stack Overflow帖子ID,链接的API,链接方式(如通过代码链接),以及根据帖子创建日期确定的链接类的API级别。
搜集汇总
数据集介绍

构建方式
该数据集通过爬取Google Play商店中的免费应用程序,结合Stack Overflow上的相关问答数据构建而成。具体而言,数据集包含了从Google Play商店中获取的APK文件信息、API调用次数以及API变更记录。此外,数据集还整合了Stack Overflow上与Android API相关的帖子链接,确保了数据的全面性和时效性。
特点
该数据集的特点在于其多维度的数据覆盖,不仅包含了APK文件的详细信息和API调用统计,还记录了Android API的变更历史。数据集中的API调用数据经过筛选,排除了部分混淆的API名称,确保了数据的准确性。此外,数据集还提供了Stack Overflow帖子与API的关联信息,为研究API的使用趋势和开发者行为提供了丰富的数据支持。
使用方法
该数据集的使用方法较为灵活,研究人员可以通过分析APK文件中的API调用次数,了解不同API的使用频率和趋势。同时,结合API变更记录,可以研究API的演进对开发者行为的影响。数据集中的Stack Overflow帖子链接信息,可用于分析开发者在使用新API时遇到的问题及其解决方式。此外,数据集支持通过R语言进行进一步的数据处理和分析,为研究提供了便利。
背景与挑战
背景概述
stackoverflow-android-dataset数据集由研究人员在2019年创建,旨在探讨Stack Overflow平台上关于最新Android API问题的回答数量、质量及响应延迟。该数据集的核心研究问题聚焦于开发者社区如何应对快速变化的API环境,特别是Android API的频繁更新对开发者提问与回答的影响。数据集由多个文件组成,包括从Google Play商店爬取的APK数据、API调用统计、以及Stack Overflow帖子与API的关联信息。该数据集为研究开发者行为、API演化及其对开发者社区的影响提供了宝贵的数据支持,推动了软件工程领域对API使用与维护的深入理解。
当前挑战
stackoverflow-android-dataset数据集在构建与应用过程中面临多重挑战。首先,API的频繁更新与版本差异导致数据一致性难以保证,部分APK因混淆处理使得API名称无法精确匹配,需通过交叉验证过滤无效数据。其次,数据集的构建依赖于大规模爬取与处理,涉及复杂的API调用统计与Stack Overflow帖子关联分析,这对数据处理能力与算法设计提出了较高要求。此外,如何准确评估回答质量与响应延迟,尤其是在API快速演化的背景下,仍是一个亟待解决的难题。这些挑战不仅影响了数据集的构建效率,也对后续研究的准确性与可靠性提出了更高要求。
常用场景
经典使用场景
在Android开发领域,stackoverflow-android-dataset数据集被广泛应用于分析Stack Overflow平台上关于最新API的问题及其解答的质量、数量和响应时间。研究者通过该数据集能够深入探讨开发者在使用新API时遇到的常见问题,以及社区对这些问题的解答效率和质量。这一数据集为理解开发者社区对新技术的适应过程提供了宝贵的数据支持。
解决学术问题
该数据集解决了Android开发中关于API使用和社区支持的关键学术问题。通过分析API调用频率、API变更历史以及Stack Overflow上的相关讨论,研究者能够评估新API的采纳率、开发者对新API的适应难度以及社区对新技术的支持力度。这些分析为API设计者和开发者提供了改进API文档和社区支持的依据,从而提升开发效率和代码质量。
衍生相关工作
基于stackoverflow-android-dataset数据集,许多相关研究工作得以展开。例如,研究者利用该数据集开发了自动化工具,用于预测API变更对现有应用的影响,并提出了改进API文档的建议。此外,该数据集还被用于构建开发者社区支持模型,帮助社区更高效地解答开发者在使用新API时遇到的问题。这些衍生工作进一步推动了Android开发领域的技术进步和社区发展。
以上内容由遇见数据集搜集并总结生成



