API Dataset
收藏github2023-02-08 更新2024-05-31 收录
下载链接:
https://github.com/kkfletch/API-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从http://www.programmableweb.com爬取的API列表,包含12,879个API记录,每个记录有19个字段,如api_name、api_url等。
本数据集源自于http://www.programmableweb.com所爬取的API清单,其中收录了共计12,879条API记录,每条记录详尽地包含了19个字段,诸如api_name(API名称)、api_url(API网址)等。
创建时间:
2018-11-01
原始信息汇总
数据集概述
数据集名称
- Web_APIs.txt
数据集内容
- 包含12,879个API的列表
数据集字段
- api_name
- api_url
- api_tags
- api_desc
- api_primary_category
- api_secondary_categories
- api_date
- ssl_support
- authentication_model
- request_data_format
- response_data_format
- api_version
- api_num_sdks
- api_num_how_tos
- api_num_sample_codes
- api_num_libraries
- api_num_developers
- api_num_followers
- api_num_comments
数据集引用
- 引用文献:
- Fletcher, Kenneth. "Regularizing matrix factorization with implicit user preference embeddings for web API recommendation." 2019 IEEE International Conference on Services Computing (SCC). IEEE, 2019.
- Fletcher, Kenneth K. "A quality-aware web API recommender system for mashup development." International Conference on Services Computing. Springer, 2019.
- Fletcher, Kenneth K. "A quality-based web API selection for mashup development using affinity propagation." International conference on services computing. Springer, 2018.
搜集汇总
数据集介绍

构建方式
API数据集是通过网络爬虫技术从ProgrammableWeb网站上抓取的数据构建而成。该数据集包含了2018年3月期间收集的12,879个API的详细信息,每个API记录包含19个字段,这些字段以制表符分隔,涵盖了API的名称、URL、标签、描述、主要类别、次要类别、提交日期、SSL支持、认证模型、请求数据格式、响应数据格式、API版本、SDK数量、教程数量、示例代码数量、库数量、开发者数量、关注者数量以及用户评论数量等。
特点
该数据集的特点在于其全面性和详细性,每个API记录不仅包含了基本的信息,如名称和URL,还提供了丰富的元数据,如认证模型、数据格式、版本信息等。此外,数据集还包含了API的使用统计信息,如开发者数量、关注者数量和用户评论数量,这些信息对于研究API的流行度和用户偏好具有重要价值。数据集的结构化格式便于进行数据分析和挖掘,适用于API推荐系统、质量评估和Mashup开发等领域的研究。
使用方法
使用该数据集时,研究人员可以通过分析API的元数据和统计信息,进行API推荐、质量评估和Mashup开发等研究。数据集的结构化格式便于导入到数据分析工具中进行进一步处理。在使用该数据集时,需引用相关的学术论文,以确保研究的学术性和透明性。数据集的使用不仅限于学术研究,还可应用于企业级API管理和开发实践,帮助开发者更好地理解和选择适合的API。
背景与挑战
背景概述
API Dataset 是一个从 programmableweb.com 网站爬取的数据集,创建于2018年3月,主要研究人员为 Kenneth Fletcher。该数据集包含12,879个API的详细记录,每个记录包含19个字段,涵盖了API的名称、URL、标签、描述、分类、支持的功能(如SSL支持、认证模型)、数据格式、版本信息以及开发者使用情况等。该数据集的核心研究问题在于如何通过API的属性和使用情况,推荐适合的API用于Mashup开发。该数据集在服务计算领域具有重要影响力,特别是在API推荐系统和Mashup开发研究中,为相关研究提供了丰富的数据支持。
当前挑战
API Dataset 所解决的领域问题主要集中在API推荐系统的构建与优化上,挑战在于如何从海量的API中选择最适合的API组合以满足特定开发需求。构建该数据集的过程中,研究人员面临的主要挑战包括数据的爬取与清洗,特别是如何确保API信息的完整性和准确性。此外,API的多样性和复杂性也增加了数据处理的难度,例如如何有效分类和标注API的功能与用途。最后,API的使用情况数据(如开发者数量、评论数量等)的动态变化也为数据集的构建和维护带来了挑战。
常用场景
经典使用场景
API Dataset 数据集广泛应用于Web API推荐系统的研究中。研究者通过分析API的名称、URL、标签、描述、分类、支持的功能等字段,构建推荐模型,帮助开发者快速找到适合其项目需求的API。该数据集为API推荐算法提供了丰富的特征信息,使得推荐系统能够基于API的功能、使用频率、开发者反馈等多维度数据进行精准推荐。
实际应用
在实际应用中,API Dataset 数据集被广泛用于构建智能API推荐平台,帮助开发者在海量API中快速定位所需资源。例如,企业可以利用该数据集开发内部API管理工具,优化API的发现和使用流程。此外,该数据集还被用于API市场的分析,帮助平台运营者了解API的使用趋势和开发者偏好,从而优化API的分类和推广策略。
衍生相关工作
基于API Dataset 数据集,研究者们提出了多项经典工作。例如,Fletcher等人开发了基于隐式用户偏好嵌入的矩阵分解模型,显著提升了API推荐的准确性。此外,他们还提出了基于质量的API推荐系统,利用亲和传播算法进行API选择,为Mashup开发提供了高质量的API组合方案。这些工作不仅推动了API推荐领域的研究进展,也为实际应用提供了重要的技术支撑。
以上内容由遇见数据集搜集并总结生成



