five

AI Supercomputers Dataset

收藏
arXiv2025-04-23 更新2025-04-24 收录
下载链接:
https://epoch.ai/data/ai-supercomputers
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了一个包含从2019年到2025年的500个AI超级计算机的数据集。数据集由Epoch AI维护,涵盖了AI超级计算机的硬件成本、性能、功耗以及全球分布情况。该数据集通过公开资源收集而来,包括公司公告、Top500列表以及Epoch AI的著名AI模型数据集。数据集估计覆盖了全球AI芯片产量的10%和最大公司AI芯片库存的15%,以及Epoch AI著名模型数据集中25个最大训练运行中使用的一半系统。

This study constructs a dataset consisting of 500 AI supercomputers spanning from 2019 to 2025. Maintained by Epoch AI, this dataset covers the hardware costs, performance, power consumption, and global distribution status of AI supercomputers. The dataset is collected from public sources including corporate announcements, the TOP500 List, and Epoch AI's renowned AI model dataset. It is estimated that the dataset covers 10% of the global AI chip production volume, 15% of the AI chip inventory of the largest companies, and half of the systems used in the 25 largest training runs included in Epoch AI's renowned AI model dataset.
提供机构:
Epoch AI
创建时间:
2025-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统收集2019年至2025年间全球500个AI超级计算机的公开数据构建而成。采用Google Search API、Top500列表和手动搜索相结合的方法,确保数据的全面性和准确性。定义AI超级计算机为使用AI芯片且首次投入使用时计算性能达到当时领先系统1%以上的计算机系统。数据收集过程包括筛选符合标准的系统,并记录其性能、功耗、硬件成本、所有权和全球分布等关键指标。
特点
该数据集涵盖了AI超级计算机在性能、功耗、硬件成本和全球分布等方面的关键趋势。研究发现,AI超级计算机的计算性能每9个月翻一番,硬件购置成本和功耗需求每年翻一番。此外,企业拥有的AI超级计算机性能占比从2019年的40%增长至2025年的80%,而政府和学术机构的份额则显著下降。美国在全球AI超级计算机性能中占比75%,中国占15%。
使用方法
该数据集可用于分析AI超级计算机的发展趋势,评估资源需求和全球竞争力。研究人员可通过数据集了解性能增长、功耗和硬件成本的演变,为政策制定者提供决策支持。数据集还可用于比较不同国家和部门的AI超级计算机分布,帮助评估国家在AI领域的竞争力。使用时应结合公开报告和其他数据源,以验证和补充数据集中的信息。
背景与挑战
背景概述
AI Supercomputers Dataset由Georgetown University和Epoch AI等机构的研究人员于2025年创建,旨在系统分析2019至2025年间全球500台AI超级计算机的性能、能耗、硬件成本及地域分布等关键趋势。该数据集揭示了AI超级计算机的计算性能每9个月翻倍、硬件成本与能耗每年翻倍的指数增长规律,并发现企业部门在AI计算资源中的占比从2019年的40%激增至2025年的80%。作为首个专注于AI专用超算的综合性数据集,其通过整合公开数据与专业估算,为政策制定者评估AI资源需求和国家竞争力提供了重要依据,填补了传统TOP500榜单在AI工作负载评估上的空白。
当前挑战
该数据集面临三重挑战:1) 领域问题层面,需解决指数级增长的能耗与硬件成本带来的可持续性危机——按当前趋势,2030年顶尖AI超算将需9000兆瓦电力(相当于9座核电站);2) 构建过程中,数据覆盖度仅10-20%且存在显著偏差,企业系统透明度低导致Meta等公司数据覆盖达43%而苹果为零,中国AI超算因报告标准差异存在信息缺失;3) 方法论挑战包括AI超算定义模糊性(需区分单园区系统与分布式训练集群)、理论性能与实际训练效能的差异,以及不同精度计算(32/16/8位)带来的性能评估复杂性。
常用场景
经典使用场景
在人工智能超级计算机领域,AI Supercomputers Dataset数据集被广泛用于分析全球范围内AI超级计算机的性能趋势、功耗需求、硬件成本及地域分布。该数据集涵盖了2019年至2025年间500台AI超级计算机的详细信息,为研究者提供了宝贵的资源,以探索计算性能如何随时间呈指数级增长,以及这种增长背后的驱动因素。数据集特别适用于研究AI芯片数量与性能提升之间的关系,以及不同精度计算对性能的影响。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括对AI芯片性能与能效的深入分析、分布式训练技术的优化,以及AI计算资源的地缘政治影响评估。例如,基于该数据集的研究揭示了AI超级计算机在训练大型语言模型中的关键作用,推动了分散式训练方法的发展以应对电力限制。此外,数据集还被用于评估不同硬件架构(如NVIDIA H100与AMD MI300)在AI工作负载中的实际表现,为行业内的技术选型提供了数据支持。
数据集最近研究
最新研究方向
近年来,AI超级计算机数据集的研究聚焦于计算性能、能源需求、硬件成本及全球分布的指数级增长趋势。前沿探索揭示了计算性能每9个月翻倍的规律,主要由芯片数量与单芯片性能的双重提升驱动。企业部门以年均2.7倍的速度超越公共部门,美国占据全球75%的计算性能份额。研究预测到2030年,领先AI超级计算机将需要200万芯片、2000亿美元硬件成本和9GW电力,能源约束可能成为持续增长的主要瓶颈。该数据集为政策制定者评估AI资源需求、国家竞争力等关键趋势提供了重要依据,同时揭示了私营部门主导带来的学术研究资源获取不平等与系统透明度下降等挑战。
相关研究论文
  • 1
    Trends in AI SupercomputersEpoch AI · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作