five

Global Data Center Intelligence System Dataset

收藏
github2025-10-05 更新2025-10-06 收录
下载链接:
https://github.com/Ringmast4r/datacenter-atlas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含全球6,266个已验证的数据中心位置,覆盖155个国家和2,508家公司,提供设施名称、运营商、物理地址、地理坐标和基础设施分类等信息,以CSV和JSON格式存储,用于关键基础设施分析和网络拓扑映射。

This dataset contains 6,266 verified global data center locations, covering 155 countries and 2,508 companies. It provides information including facility names, operators, physical addresses, geographic coordinates, and infrastructure classifications, and is stored in both CSV and JSON formats for critical infrastructure analysis and network topology mapping.
创建时间:
2025-10-05
原始信息汇总

ATLAS 数据集概述

数据集基本信息

  • 数据集名称:ATLAS (All The Locations of All Servers)
  • 数据规模:6,266个已验证的数据中心位置
  • 覆盖范围:155个国家
  • 运营公司:2,508家公司
  • 项目类型:全球数据中心情报系统

数据内容与结构

数据字段

  • 设施名称 (name)
  • 运营公司 (company)
  • 城市 (city)
  • 行政区域 (administrative_area)
  • 国家 (country)
  • 地址 (address)

数据格式

  • CSV格式:datacenters_processed.csv
  • JSON格式:datacenters.json
  • 优化JSON格式:datacenters_cleaned.json

数据质量与处理

数据清洗成果

  • 缺失国家字段修复:970个条目中修复707个(73%改进)
  • 美国州信息补充:1,708个条目中补充1,434个
  • 坐标精度提升:从36.6%提升至70.4%

地理编码

  • 批量地理编码:3,973个设施
  • 新增精确坐标:2,119个(53%成功率)
  • 坐标验证:纬度-90到90,经度-180到180

地理分布

区域分布

  • 北美洲:2,265个设施(36.1%)
  • 欧洲:1,778+个设施(28.4%)
  • 亚太地区:783+个设施(12.5%)
  • 非洲:179+个设施(2.9%)
  • 南美洲:183+个设施(2.9%)
  • 中东:86+个设施(1.4%)

主要国家

  1. 美国:2,070个设施(33%)
  2. 英国:461个设施
  3. 荷兰:296个设施
  4. 法国:261个设施
  5. 德国:242个设施

主要运营商

  • 顶级运营商:Equinix(177个设施)
  • 公司总数:2,508家

数据文件

  • datacenters_cleaned.json:优化数据集,包含国家和州提取及坐标验证
  • datacenters_processed.csv:处理后的数据集,包含解析的地址字段
  • datacenters_original_scraped.csv:原始抓取数据
  • datacenters.json:JSON格式,用于API/应用程序集成

使用许可

  • 许可类型:保留所有权利
  • 使用限制:未经作者明确书面许可,不得使用、复制、修改或分发
搜集汇总
数据集介绍
main_image_url
构建方式
在数字基础设施测绘领域,该数据集通过开源情报技术构建而成。系统从公开网络资源中自动采集全球数据中心的位置信息,涵盖设施名称、运营商、物理地址及地理坐标等关键字段。数据清洗流程采用智能地址解析算法,修复了73%的缺失国家字段,并通过邮政编码地理编码补充了美国83.5%的州级信息。坐标验证机制确保经纬度数值符合地理坐标规范,最终形成包含6,266个已验证数据中心的标准化数据集。
特点
该数据集呈现出显著的全球覆盖性与结构完整性,涵盖155个国家、2,508家运营商的基础设施数据。其核心特征体现在多维度空间精度提升:通过批量地理编码技术,具备精确坐标的设施比例从36.6%提升至70.4%,有效解决了南半球坐标符号倒置等系统性误差。数据架构支持分层地理分析,既包含城市级精确定位,也具备国家层级的统计聚合能力,为全球互联网基础设施研究提供立体化数据支撑。
使用方法
该数据集支持多模态技术接入,用户可通过CSV、JSON或GeoJSON格式进行数据调用。在分析层面,内置的交互式地图工具提供半径搜索、邻近度分析和距离计算等空间查询功能。研究人员可利用Python或JavaScript接口实现条件筛选,例如按国家、运营商或城市维度提取子集。对于商业地理空间分析,数据集可直接集成至GIS平台,通过热力图聚类可视化展现全球数据中心分布密度,为关键基础设施规划提供决策依据。
背景与挑战
背景概述
全球数据中心智能系统数据集作为关键基础设施测绘领域的代表性成果,由商业地理空间情报平台于2023年启动建设。该项目依托开源情报技术,旨在系统性地定位全球数据中心设施,涵盖155个国家的6,266个验证节点,涉及2,508家运营商。该数据集通过精确的地理坐标采集与多维度属性标注,为网络拓扑分析、基础设施韧性评估及数字经济发展研究提供了核心数据支撑,显著推动了全球数字基础设施可视化与空间决策科学的发展进程。
当前挑战
在数据中心地理空间数据构建过程中,面临多重技术挑战:原始数据中存在15.5%的国家字段缺失与83.5%美国州级信息空白,需通过智能地址解析与邮政编码地理编码进行修复;坐标精度方面仅36.6%设施具备城市级定位,通过批量地理编码将覆盖率提升至70.4%,并修正南半球纬度符号倒置等系统性误差。领域层面需解决全球异构数据源的标准化整合、动态基础设施的实时更新机制,以及商业敏感信息的合规采集等核心问题。
常用场景
经典使用场景
在数字基础设施研究领域,该数据集为全球数据中心分布格局分析提供了关键支撑。研究人员通过其涵盖155个国家、6266个验证设施的坐标信息,能够系统性地考察互联网关键节点的地理集聚特征与空间异质性。典型应用包括绘制跨洲际光纤网络拓扑结构,分析数据中心与区域经济活跃度的相关性,以及评估自然灾害对数字服务连续性的潜在影响。
解决学术问题
该数据集有效解决了地理信息科学中基础设施空间建模的精度难题。通过批量地理编码技术将坐标精度提升至百米级,修正了南半球纬度符号倒置等系统性误差,使学术界得以开展基于精确位置的基础设施韧性研究。其覆盖2508家运营商的元数据体系,为研究全球数字生态系统演化规律提供了前所未有的细粒度观测样本。
衍生相关工作
基于该数据集衍生的经典研究包括《全球数据中心碳足迹空间分布模型》,通过耦合能源消耗与地理坐标数据推进了数字基础设施环境影响评估。另有学者开发出动态网络韧性模拟框架,利用设施间的哈弗辛距离构建故障传播模型。近期工作更将数据集与卫星遥感相结合,建立了数据中心冷却系统热辐射效应的城市热岛研究新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作