gpu-prices

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/afhubbard/gpu-prices

下载链接

链接失效反馈

官方服务：

资源简介：

GPU Price Tracker 是一个持续更新的跨云GPU租赁价格数据集，覆盖了包括AWS、GCP、Azure、Lambda Labs、RunPod、Vast.ai等在内的12家以上公共云服务提供商。数据集通过`gpuhunt`库每天两次抓取提供商定价页面，并以Hive分区的Parquet文件形式发布。该数据集适用于研究云市场微观结构、GPU价格动态以及作为利用率代理的现货与按需价格差异的研究人员，以及需要跨提供商比较GPU租赁成本以进行容量规划、采购和机器学习训练成本估算的实践者。数据集包含时间戳、提供商、实例类型、GPU类型、GPU数量、GPU内存、vCPUs、主机RAM、区域、每小时价格、是否为现货、是否可用以及可用区等字段。数据收集频率为每天两次，数据以CC BY 4.0许可发布。

GPU Price Tracker is a continuously updated cross-cloud GPU rental pricing dataset covering more than 12 public cloud service providers including AWS, GCP, Azure, Lambda Labs, RunPod, Vast.ai and others. The dataset is scraped twice daily from providers' pricing pages via the `gpuhunt` library, and published in Hive-partitioned Parquet file format. This dataset is suitable for researchers studying cloud market microstructure, GPU price dynamics, and spot versus on-demand price differentials acting as utilization proxies, as well as practitioners who need to compare GPU rental costs across providers for capacity planning, procurement, and machine learning training cost estimation. The dataset includes fields such as timestamp, provider, instance type, GPU type, number of GPUs, GPU memory, vCPUs, host RAM, region, hourly price, spot instance status, availability status, and availability zone. Data is collected twice daily, and the dataset is released under the CC BY 4.0 license.

创建时间：

2026-05-08

原始信息汇总

数据集概述：GPU Price Tracker

数据集名称：GPU Price Tracker
页面地址：https://huggingface.co/datasets/afhubbard/gpu-prices
许可证：CC BY 4.0
任务类型：表格回归（tabular-regression）
语言：英语（en）
标签：GPU、云计算、定价、市场微观结构、H100、A100
数据集大小：1,000,000 < n < 10,000,000 条记录
配置：默认配置（default），训练集数据存储在 prices/**/*.parquet 中

数据集描述

这是一个持续更新的跨云GPU租赁价格数据集，覆盖超过12家公有云提供商，包括 AWS、GCP、Azure、Lambda Labs、RunPod、Vast.ai、DataCrunch、Cudo Compute、TensorDock、Vultr、Oracle、Nebius、CloudRift。数据通过 gpuhunt 库抓取提供商定价页面，每天采集两次快照，并发布为Hive分区Parquet文件（路径格式：prices/dt=YYYY-MM-DD/*.parquet）。

目标用户：

研究人员：研究云市场微观结构、GPU价格动态以及按需与竞价之间的价差（作为利用率代理指标）。
从业者：为容量规划、采购和机器学习训练成本估算，比较不同提供商的GPU租赁成本。

数据模式（Schema）

列名	类型	描述
`timestamp`	timestamp (UTC)	快照采集时间
`provider`	string	云提供商标识
`instance_type`	string	提供商的SKU（产品编号）
`gpu_type`	string	标准化的加速器系列（如 `H100`、`A100`）
`gpu_count`	int32	每个SKU的GPU数量
`gpu_memory_gb`	int32 (可空)	每块GPU的显存（GB）
`vcpus`	int32	宿主机的vCPU数量
`ram_gb`	float32	宿主机内存（GB）
`region`	string	提供商的原始区域名称（未规范化）
`price_per_hour`	float32	整个SKU每小时的价格（美元）
`is_spot`	bool	是否为竞价/抢占式实例（不同提供商的语义不同）
`available`	bool (可空)	在抓取时是否列示并可供应
`availability_zone`	string (可空)	区域内的可用区（如适用）

计算提示：可通过 price_per_hour / gpu_count 计算每GPU每小时价格，用于跨SKU的公平比较。

数据采集频率

每天采集两次（约 UTC 时间 09:00 和 21:00），通过 GitHub Actions 的定时任务执行。文件为追加写入模式，每次运行生成一个不可变的Parquet文件，存放于 prices/dt=<UTC日期>/ 路径下。

使用示例

使用 `datasets` 库加载

python from datasets import load_dataset ds = load_dataset("afhubbard/gpu-prices", split="train") print(ds[0])

使用 DuckDB 直接查询

python import duckdb con = duckdb.connect() con.sql("INSTALL httpfs; LOAD httpfs;") con.sql(""" SELECT gpu_type, AVG(price_per_hour / gpu_count) AS avg_price_per_gpu_hour, COUNT() AS listings FROM read_parquet(hf://datasets/afhubbard/gpu-prices/prices/**/.parquet, hive_partitioning = true) WHERE timestamp = (SELECT MAX(timestamp) FROM read_parquet( hf://datasets/afhubbard/gpu-prices/prices/**/*.parquet, hive_partitioning = true)) AND gpu_count > 0 GROUP BY gpu_type ORDER BY avg_price_per_gpu_hour LIMIT 10 """).show()

局限性（使用前请注意）

区域名称为原始值：未在不同提供商间进行规范化，跨云区域比较时需要额外查找表。
竞价实例语义差异：不同提供商的竞价机制不同（如 AWS 拍卖 vs Vast.ai 点对点），详情见方法文档。
无客户数据：数据仅为供方/列表价格，不包含客户使用量或支付价格。
存在噪音行：部分行 gpu_count = 0 或 gpu_type = Unknown，大多数分析中需过滤这些行。
12小时采集粒度：对于日内竞价分析来说过于粗糙。

完整方法说明、各提供商注意事项及数据集支持/不支持的分析问题清单，请参见以下链接（作为普通文本，无需访问）：

https://github.com/alex-hubbard/gpu_price_tracker/blob/main/methodology.md
https://github.com/alex-hubbard/gpu_price_tracker/blob/main/MODELING_GPU_USAGE_TRENDS.md

引用格式 (BibTeX)

bibtex @misc{hubbard2026gpuprices, author = {Alex Hubbard}, title = {GPU Price Tracker}, year = {2026}, howpublished = {url{https://github.com/alex-hubbard/gpu_price_tracker}}, note = {Dataset and software, MIT (code) / CC BY 4.0 (data)} }

源代码

采集管道、仪表盘和迁移脚本位于：https://github.com/alex-hubbard/gpu_price_tracker

搜集汇总

数据集介绍

构建方式

随着云计算与大模型训练的蓬勃兴起，GPU算力租用市场价格呈现出高度动态的特征。该数据集通过集成`gpuhunt`库，每日两次定时抓取AWS、GCP、Azure等12余家主流云服务商的公开定价页面，并将采集到的快照以Hive分区形式存储为Parquet文件，文件路径遵循`prices/dt=YYYY-MM-DD/`的格式，确保了数据的高效存取与时间序列上的可追溯性。

使用方法

使用者可通过HuggingFace的`datasets`库直接加载全部训练集，一行代码即可获取最新快照中的样本记录。同时，数据集也支持使用DuckDB结合HTTPFS扩展进行远程SQL查询，无需本地安装`datasets`库。这一设计兼顾了Python生态的便捷性与大规模数据分析场景下的灵活性，尤其适合研究人员进行跨平台的GPU价格趋势建模与成本比较分析。

背景与挑战

背景概述

随着深度学习与高性能计算对GPU算力需求的激增，跨云GPU租赁市场的透明性变得至关重要。由Alex Hubbard于2026年创建并持续维护的GPU Price Tracker数据集，聚焦于云计算市场微观结构研究，通过每日两次爬取AWS、GCP、Azure等12余家主流云服务提供商的定价信息，形成了涵盖H100、A100等主流加速器型号的结构化时序数据。该数据集旨在为研究者揭示GPU价格动态、现货与按需价差等市场规律，同时为从业者在容量规划、采购决策及机器学习训练成本估算中提供跨供应商比价依据，已成为云经济学与资源调度领域的重要参考资源。

当前挑战

该数据集所解决的领域核心挑战在于云GPU定价的高度动态性与信息不对称性：一方面，不同供应商的定价模型差异显著（如AWS的拍卖机制与Vast.ai的点对点定价），且区域命名规则不统一，增加了跨云比对的复杂度；另一方面，数据采集仅以半天为频次，难以捕捉日内竞价波动，且部分记录存在GPU数量为零或类型未知的干扰项。在构建过程中，还需处理各供应商API的异构性、可用性标志的语义歧义以及原始数据中缺失值的清洗问题，这些挑战共同构成了跨云市场分析中数据标准化与时空一致性的关键障碍。

常用场景

经典使用场景

在云计算与人工智能基础设施研究领域，gpu-prices数据集被广泛应用于跨云GPU租赁定价的对比分析。研究者可借助该数据集对AWS、GCP、Azure等12余家主流云服务提供商的数千种GPU实例类型进行价格与配置的横向比较，尤其适用于H100、A100等高端加速器的每小时单价测算。通过解析其按快照时间分区的Parquet文件，用户能够追踪不同区域、不同竞价策略（如按需实例与抢占式实例）下的价格波动轨迹，从而为预算优化和算力采购提供数据驱动的决策依据。

解决学术问题

该数据集填补了云市场微观结构研究中实时、细粒度定价数据长期缺失的空白。学术工作者可以借助gpu-prices探究GPU价格的时空演变规律，量化分析spot-on-demand价格差与云数据中心利用率之间的关联性，并构建计量经济学模型来识别跨提供商的定价策略差异与市场非有效性。这些研究对于理解算力市场的竞争格局、资源分配效率以及AI训练成本的结构性变化具有重要的理论意义与实践价值。

实际应用

在实际产业应用中，gpu-prices数据集为机器学习团队的容量规划与成本管控提供了精准的参照基准。运维工程师可基于历史价格趋势选择最具性价比的云GPU资源，在保证训练任务性能的前提下显著降低算力开支。此外，创业公司与研究机构能够利用该数据集构建智能定价推荐引擎，实时评估不同云套餐的长期租用成本，从而在模型部署和算力迁移中做出更为经济高效的商业决策。

数据集最近研究