HAPI
收藏arXiv2022-09-18 更新2024-06-21 收录
下载链接:
https://github.com/lchen001/HAPI
下载链接
链接失效反馈官方服务:
资源简介:
HAPI(API历史)是一个包含1,761,417个实例的纵向数据集,记录了从2020年到2022年商业ML API的应用情况,涉及亚马逊、谷歌、IBM、微软等提供的API。该数据集覆盖了图像标记、语音识别、文本挖掘等多种任务。HAPI是首个系统研究ML API应用的大规模数据集,为ML-as-a-service领域的研究提供了宝贵资源。通过分析HAPI,研究者可以深入了解API性能随时间的变化,以及不同API在处理相同任务时的性能差异,从而为ML API的选择和使用提供科学依据。
HAPI (API History) is a longitudinal dataset containing 1,761,417 instances, which documents the deployment and usage status of commercial machine learning (ML) APIs between 2020 and 2022, involving APIs provided by Amazon, Google, IBM, Microsoft and other technology vendors. This dataset encompasses a wide range of tasks such as image tagging, speech recognition, text mining and more. As the first large-scale dataset for systematically investigating the applications of ML APIs, HAPI serves as a valuable resource for research in the ML-as-a-service domain. By analyzing HAPI, researchers can gain in-depth insights into the temporal changes of API performance and the performance differences between different APIs when handling the same task, thereby providing scientific basis for the selection and utilization of ML APIs.
提供机构:
斯坦福大学
创建时间:
2022-09-18
搜集汇总
数据集介绍

构建方式
HAPI数据集的构建方式是基于对多个商业机器学习API在多个年份的纵向评估。该数据集收集了从2020年到2022年间,涉及亚马逊、谷歌、IBM、微软和其他提供商的API应用的17611417个实例。这些实例包括图像标记、语音识别和文本挖掘等多种任务。每个实例由API的查询输入(例如图像或文本)、API的输出预测/注释和置信分数组成。HAPI是第一个大规模的机器学习API使用数据集,为研究机器学习即服务(MLaaS)提供了独特的资源。
使用方法
HAPI数据集的使用方法包括下载和分析。用户可以从项目网站上下载HAPI数据集,并使用Python API进行数据分析和探索。此外,项目网站还提供了一些有趣的示例,帮助用户了解如何使用HAPI进行研究和分析。用户还可以通过项目网站上的交互式反馈系统,提出对数据集的意见和建议,以帮助改进和扩展HAPI。
背景与挑战
背景概述
在机器学习领域,商业机器学习API(ML API)的应用日益普及,它们由Google、Amazon和Microsoft等公司提供,极大地简化了机器学习在众多应用程序中的采用。HAPI数据集,即API历史数据集,是由斯坦福大学的研究团队于2020年至2022年间创建的,旨在系统性地研究和比较不同的商业ML API,并表征API随时间的变化。HAPI数据集包含来自Amazon、Google、IBM、Microsoft和其他提供者的1,761,417个商业ML API应用实例,涉及图像标记、语音识别和文本挖掘等多种任务。HAPI数据集是首个大规模的ML API使用数据集,为研究机器学习即服务(MLaaS)提供了独特的资源。
当前挑战
HAPI数据集的研究背景主要集中在MLaaS生态系统中API性能的动态变化。随着ML API的快速发展,它们已成为一个有价值的市场和广泛使用的机器学习消费方式。然而,由于缺乏数据,这一领域目前尚未得到充分探索。HAPI数据集的创建旨在解决这一问题,通过提供一个系统性的数据集,研究者可以分析不同API的性能,以及它们随时间的变化。此外,HAPI数据集还可以用于研究商业API在不同人口统计子群体中的性能差异。尽管HAPI数据集为MLaaS领域的研究提供了宝贵资源,但仍然存在一些挑战。首先,API的性能变化可能会导致整个分析管道的性能下降,这对依赖ML API的应用程序造成了影响。其次,API的更新可能会引入新的错误模式,这需要用户及时调整API使用策略。最后,如何确定在特定数据集上使用哪种API或API组合,以及如何在没有监督或半监督的情况下进行性能评估,仍然是MLaaS领域需要解决的问题。
常用场景
经典使用场景
HAPI数据集最经典的使用场景在于评估和比较不同商业机器学习API的性能随时间的变化。该数据集涵盖了从2020年到2022年期间,涉及Amazon、Google、IBM、Microsoft等提供商的API在图像标记、语音识别和文本挖掘等多样化任务上的1,761,417个实例。通过分析这些API在不同时间点的预测和置信度分数,研究人员可以了解API性能的演变趋势,并研究API更新如何影响下游应用的表现。
解决学术问题
HAPI数据集解决了学术研究中关于机器学习API性能随时间变化的监测和分析问题。由于缺乏相关数据,这一领域的研究一直处于探索阶段。HAPI数据集提供了一个独特的机会,用于研究ML-as-a-service(MLaaS)生态系统中的API性能变化,以及如何通过选择合适的API或API组合来优化应用性能。此外,HAPI数据集还可以用于研究API性能在人口统计学亚组中的差异,从而促进对机器学习公平性的理解。
实际应用
HAPI数据集在实际应用场景中可用于优化机器学习API的选择和使用策略。企业和研究人员可以利用HAPI数据集来评估不同API的性能,并根据应用需求和预算限制选择最合适的API或API组合。此外,HAPI数据集还可以用于监测和评估API性能随时间的变化,以便及时调整API使用策略,确保应用性能的稳定性和可靠性。
数据集最近研究
最新研究方向
在机器学习作为服务(MLaaS)领域,HAPI数据集的发布标志着对商业机器学习API性能随时间变化的系统性研究迈出了重要一步。HAPI数据集收集了从2020年到2022年不同商业ML API(如Google、Microsoft、Amazon等提供商的API)在图像标注、语音识别和文本挖掘等多个任务上的预测结果,为研究MLaaS生态系统的动态变化提供了宝贵资源。该数据集揭示了ML API性能随时间的显著变化,包括准确性提升和下降,以及错误模式的转变。HAPI数据集的研究表明,即使API的整体性能保持稳定,其错误模式也可能在不同子类型的数据之间发生变化,这可能会对整个分析流程产生重大影响。此外,HAPI还用于研究商业API在不同人口统计子群体中的性能差异随时间的变化。HAPI数据集的发布为MLaaS领域的研究开辟了新的方向,包括如何根据特定数据和应用选择合适的API或API组合,如何在不监督或半监督的情况下进行性能评估,以及如何解释API更新带来的性能差距等。HAPI数据集的持续更新和扩展将进一步推动MLaaS领域的研究,促进商业ML API的可靠性和公平性。
相关研究论文
- 1HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions斯坦福大学 · 2022年
以上内容由遇见数据集搜集并总结生成



