gpu-prices
收藏数据集概述:GPU Price Tracker
数据集名称:GPU Price Tracker
页面地址:https://huggingface.co/datasets/afhubbard/gpu-prices
许可证:CC BY 4.0
任务类型:表格回归(tabular-regression)
语言:英语(en)
标签:GPU、云计算、定价、市场微观结构、H100、A100
数据集大小:1,000,000 < n < 10,000,000 条记录
配置:默认配置(default),训练集数据存储在 prices/**/*.parquet 中
数据集描述
这是一个持续更新的跨云GPU租赁价格数据集,覆盖超过12家公有云提供商,包括 AWS、GCP、Azure、Lambda Labs、RunPod、Vast.ai、DataCrunch、Cudo Compute、TensorDock、Vultr、Oracle、Nebius、CloudRift。数据通过 gpuhunt 库抓取提供商定价页面,每天采集两次快照,并发布为Hive分区Parquet文件(路径格式:prices/dt=YYYY-MM-DD/*.parquet)。
目标用户:
- 研究人员:研究云市场微观结构、GPU价格动态以及按需与竞价之间的价差(作为利用率代理指标)。
- 从业者:为容量规划、采购和机器学习训练成本估算,比较不同提供商的GPU租赁成本。
数据模式(Schema)
| 列名 | 类型 | 描述 |
|---|---|---|
timestamp |
timestamp (UTC) | 快照采集时间 |
provider |
string | 云提供商标识 |
instance_type |
string | 提供商的SKU(产品编号) |
gpu_type |
string | 标准化的加速器系列(如 H100、A100) |
gpu_count |
int32 | 每个SKU的GPU数量 |
gpu_memory_gb |
int32 (可空) | 每块GPU的显存(GB) |
vcpus |
int32 | 宿主机的vCPU数量 |
ram_gb |
float32 | 宿主机内存(GB) |
region |
string | 提供商的原始区域名称(未规范化) |
price_per_hour |
float32 | 整个SKU每小时的价格(美元) |
is_spot |
bool | 是否为竞价/抢占式实例(不同提供商的语义不同) |
available |
bool (可空) | 在抓取时是否列示并可供应 |
availability_zone |
string (可空) | 区域内的可用区(如适用) |
计算提示:可通过 price_per_hour / gpu_count 计算每GPU每小时价格,用于跨SKU的公平比较。
数据采集频率
每天采集两次(约 UTC 时间 09:00 和 21:00),通过 GitHub Actions 的定时任务执行。文件为追加写入模式,每次运行生成一个不可变的Parquet文件,存放于 prices/dt=<UTC日期>/ 路径下。
使用示例
使用 datasets 库加载
python from datasets import load_dataset ds = load_dataset("afhubbard/gpu-prices", split="train") print(ds[0])
使用 DuckDB 直接查询
python import duckdb con = duckdb.connect() con.sql("INSTALL httpfs; LOAD httpfs;") con.sql(""" SELECT gpu_type, AVG(price_per_hour / gpu_count) AS avg_price_per_gpu_hour, COUNT() AS listings FROM read_parquet(hf://datasets/afhubbard/gpu-prices/prices/**/.parquet, hive_partitioning = true) WHERE timestamp = (SELECT MAX(timestamp) FROM read_parquet( hf://datasets/afhubbard/gpu-prices/prices/**/*.parquet, hive_partitioning = true)) AND gpu_count > 0 GROUP BY gpu_type ORDER BY avg_price_per_gpu_hour LIMIT 10 """).show()
局限性(使用前请注意)
- 区域名称为原始值:未在不同提供商间进行规范化,跨云区域比较时需要额外查找表。
- 竞价实例语义差异:不同提供商的竞价机制不同(如 AWS 拍卖 vs Vast.ai 点对点),详情见方法文档。
- 无客户数据:数据仅为供方/列表价格,不包含客户使用量或支付价格。
- 存在噪音行:部分行
gpu_count = 0或gpu_type = Unknown,大多数分析中需过滤这些行。 - 12小时采集粒度:对于日内竞价分析来说过于粗糙。
完整方法说明、各提供商注意事项及数据集支持/不支持的分析问题清单,请参见以下链接(作为普通文本,无需访问):
https://github.com/alex-hubbard/gpu_price_tracker/blob/main/methodology.mdhttps://github.com/alex-hubbard/gpu_price_tracker/blob/main/MODELING_GPU_USAGE_TRENDS.md
引用格式 (BibTeX)
bibtex @misc{hubbard2026gpuprices, author = {Alex Hubbard}, title = {GPU Price Tracker}, year = {2026}, howpublished = {url{https://github.com/alex-hubbard/gpu_price_tracker}}, note = {Dataset and software, MIT (code) / CC BY 4.0 (data)} }
源代码
采集管道、仪表盘和迁移脚本位于:https://github.com/alex-hubbard/gpu_price_tracker




