multi-node availability dataset

Name: multi-node availability dataset
Creator: 汉阳大学·数据科学系; KT; 汉阳大学·人工智能系
Published: 2026-04-27 22:41:45
License: 暂无描述

arXiv2026-04-27 更新2026-04-29 收录

下载链接：

https://spotvista.ddps.cloud

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由汉阳大学研究团队构建，聚焦云计算中多节点现货实例的可用性行为分析。数据集规模达59,560条记录，覆盖127种独特实例类型，通过创新采样启发式方法克服云服务商API查询限制采集而成。研究团队开发了均匀间隔查询采样(USQS)和追踪分数转换点(TSTP)技术，在保证数据完整性的同时显著降低查询开销。该数据集主要应用于分布式云计算领域，旨在解决现代分布式应用(如大规模机器学习训练和数据处理)在利用现货实例时面临的多节点稳定性预测难题，为构建高可用性、高性价比的云资源池提供数据支撑。

This dataset was constructed by a research team from Hanyang University, focusing on the availability behavior analysis of multi-node spot instances in cloud computing. It consists of 59,560 records covering 127 unique instance types, and was collected through innovative sampling heuristics to circumvent the API query limitations imposed by cloud service providers. The research team developed two techniques: Uniform Spaced Query Sampling (USQS) and Trace Score Transition Point (TSTP), which significantly reduce query overhead while guaranteeing data integrity. This dataset is primarily applied in the field of distributed cloud computing, aiming to address the multi-node stability prediction challenge faced by modern distributed applications (e.g., large-scale machine learning training and data processing) when utilizing spot instances, and providing data support for the construction of cloud resource pools with high availability and high cost-effectiveness.

提供机构：

汉阳大学·数据科学系; KT; 汉阳大学·人工智能系

创建时间：

2026-04-27

搜集汇总

数据集介绍

构建方式

在云计算领域，随着工作负载向大规模分布式应用演进，多节点临时实例的稳定配置成为关键挑战。该数据集基于AWS提供的Spot Placement Score（SPS）API构建，通过创新的均匀间距查询采样（USQS）启发式策略，以10分钟为周期、步长为5的节点数区间（1至50），高效收集多节点SPS时序数据。同时，辅助采用带缓存与早停机制的二分搜索（TSTP）精确定位SPS评分跃迁点。数据采集涵盖2024年7月至2025年8月期间，跨越17个AWS区域和952种实例类型，累计规模达百万级观测点。

特点

该数据集的核心价值在于首次提供了系统化的多节点临时实例可用性视图。与传统的单节点SPS不同，数据集揭示了同一实例类型在不同节点请求数下的可用性评分非单调递减特性，以及节点数增加时评分骤降的临界点分布。此外，数据具备鲜明的时空异质性：同一实例类型在不同可用区间的T3值差异可达50个节点；同时表现出强周期性节律，日间和周末的可用性低于夜间和工作日。通过MSTL分解验证，每日季节性强度高达0.997，证实了长时间序列的稳定可预测模式。

使用方法

该数据集适用于构建多节点临时实例的可靠性评估与推荐系统。使用者可通过API获取用户指定资源需求（如CPU总核心数或内存总量）下各候选实例类型的时序T3数据，进而计算包含幅度、趋势和波动性三要素的复合可用性评分（AS）。结合成本归一化评分与可调节权重参数，采用基于贪心启发式的异构池构建算法，能够在秒级内输出兼顾可用性与成本效益的实例组合推荐。数据集及其推荐引擎已部署为公开Web服务，支持直接接口调用与历史数据批量下载。

背景与挑战

背景概述

在云计算领域，为了最大化闲置资源利用率，主流云服务商（包括AWS、Azure、GCP等）以显著折扣提供竞价实例（spot instances），但其突然中断的风险始终是应用可靠性的重大威胁。过往研究广泛依赖云商提供的定价数据集来预测中断事件，然而近年来定价政策的变革削弱了价格与中断之间的关联，使传统方法逐渐失效。为应对这一困境，云商转而发布即时可用性数据集，如AWS的Spot Placement Score（SPS）。然而，现有基于该数据的研究主要聚焦于单节点实例，忽略了现代云环境中普遍采用的多节点部署场景。2026年，来自汉阳大学数据科学系的Taeyoon Kim等研究人员正是为了填补这一空白，提出了SpotVista系统，旨在通过构建大规模多节点可用性数据集，为可靠且成本高效的多节点竞价实例推荐提供支撑。该数据集不仅突破了AWS API的查询限制，还首次系统地揭示了多节点环境中可用性的时空特性，对推动分布式机器学习、大数据处理等领域的可靠云资源利用具有重要影响。

当前挑战

该工作所面临的挑战是多维度的。在领域问题层面，传统单节点可用性指标无法准确反映多节点资源池的稳定性；实验表明，即使单节点SPS评分为3（最高），当请求50个实例时，成功率竟骤降至20%以下，因为同一可用区内同类型实例共享容量池，单节点评分无法表征池中可同时分配的节点数量。在数据构建层面，最大的挑战来自AWS的严格查询限制：每24小时内仅允许50种不同的查询场景，且不同节点数的查询被视为独立请求。若要从1到50个节点逐一查询所有实例类型，需执行165,000次请求并分布至3,300个独立账户，周期性的数据集更新更使得这种暴力方法几乎不可行。为此，研究者提出了均匀间隔查询采样（USQS）启发式方法，通过每10分钟仅查询一个目标节点数并循环递增，将每次采集的查询量降至单次，同时凭借理论熵分析（实测熵2.5052 bits，显著低于均匀分布的3.4594 bits）验证了该采样策略能以最小信息损失捕捉关键可用性状态。

常用场景

经典使用场景

在云计算领域，弹性资源管理一直是优化成本和保障服务稳定性的核心挑战。公共云供应商提供的竞价实例（Spot Instances）以高达90%的折扣吸引用户使用闲置资源，但其突发中断风险严重威胁了大规模分布式应用的可靠性。multi-node availability dataset正是为应对这一困境而诞生的关键数据基础。该数据集聚焦于多节点竞价实例的可用性建模，通过收集跨越多个AWS区域、涵盖952种实例类型、时间跨度长达数月的Spot Placement Score（SPS）数据，首次系统性地揭示了单节点可用性评分在多节点场景下的严重失真现象。经典使用场景包括：研究人员利用该数据集评估不同实例类型在并发请求下的成功分配率，验证多节点可用性随请求数量增加而急剧恶化的非线性规律，从而建立对竞价实例真实可用性的量化认知。

解决学术问题

该数据集解决了一个长期被忽视的学术困境——现有竞价实例研究几乎全部基于单节点指标，无法真实反映大规模分布式工作负载（如深度学习模型训练、大数据处理）在多节点环境下的可用性。传统工作依赖价格数据集预测中断风险，但云供应商政策变革已削弱了价格与中断之间的关联性。multi-node availability dataset填补了这一空白，它提供了细粒度的多节点SPS时间序列数据，使研究者能够分析可用性的时空分布特征、日周期性规律以及长期趋势稳定性。基于此数据集，学术界得以设计出融合幅度、趋势和波动性的复合可用性评分模型，将中断风险预测误差降低了11.1%，并为生存分析（Kaplan-Meier估计、Cox比例风险模型）提供了可靠的数据支撑，推动了对竞价实例可靠性机制的深刻理解。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究。在数据收集方法论层面，USQS（均匀间隔查询采样）和TSTP（追踪分数转换点）两种启发式算法被后续研究广泛借鉴，前者以单次查询周期实现3%以内的误差，后者通过二分查找与缓存优化将查询次数从165,000次降至约7次，极大降低了大规模时序数据采集的开销。在推荐系统领域，SpotVista的贪婪异构池构建算法催生了SpotVerse的改进版和SpotFleet的对比研究，实验表明该算法在可用性上比SpotVerse-T4高出81.28%，比AWS官方服务SpotFleet高出21.6%。此外，该数据集还为跨云供应商通用性研究提供了基准——MSTL分解揭示AWS与Azure在可用性季节性模式上的显著差异，推动了针对弱周期性云环境的自适应评分模型开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集