five

ATLAS数据中心位置数据集

收藏
github2025-10-06 更新2025-10-07 收录
下载链接:
https://github.com/Ringmast4r/ATLAS_A-Data-Center-Project
下载链接
链接失效反馈
官方服务:
资源简介:
一个全面的全球数据中心情报系统,包含6,266个经过验证的数据中心位置,覆盖155个国家和2,508家公司运营商。数据集包含设施名称、运营商、物理地址、地理坐标和基础设施分类等信息,提供CSV和JSON两种格式

A comprehensive global data center intelligence dataset containing 6,266 verified data center locations, covering 155 countries and 2,508 corporate operators. This dataset includes information such as facility names, operators, physical addresses, geographic coordinates, and infrastructure classifications, and is available in both CSV and JSON formats.
创建时间:
2025-10-05
原始信息汇总

ATLAS 数据集概述

项目简介

ATLAS(全称:All The Locations of All Servers)是一个全球数据中心情报系统,专门用于映射全球关键基础设施。该项目通过开源情报收集方法,系统性地发现、验证和提取全球数据中心设施的GPS坐标。

数据集规模

  • 数据中心总数:6,266个已验证位置
  • 覆盖国家:155个国家
  • 运营商数量:2,508家公司

数据质量改进

数据清洗优化

  • 修复970个缺失国家字段的条目(73%改进)
  • 为1,708个美国条目添加州信息
  • 坐标精度覆盖率从36.6%提升至70.4%
  • 减少无效绘图73%

地理编码精度提升

  • 批量地理编码3,973个设施
  • 新增2,119个精确坐标(53%成功率)
  • 修正261个南半球设施的纬度符号错误
  • 修复坐标定位错误,精度提升50-200英里

数据字段结构

CSV格式字段

  • name(设施名称)
  • company(运营商)
  • city(城市)
  • administrative_area(行政区)
  • country(国家)
  • address(地址)

JSON格式附加字段

  • street(街道)
  • state(州)
  • zip(邮政编码)
  • city_coords(城市坐标)

地理分布

区域分布

  • 北美:2,265个设施(36.1%)
  • 欧洲:1,778+个设施(28.4%)
  • 亚太:783+个设施(12.5%)
  • 非洲:179+个设施(2.9%)
  • 南美:183+个设施(2.9%)
  • 中东:86+个设施(1.4%)

前10国家排名

  1. 美国(2,070个设施)
  2. 英国(461个设施)
  3. 荷兰(296个设施)
  4. 法国(261个设施)
  5. 德国(242个设施)
  6. 澳大利亚(181个设施)
  7. 加拿大(164个设施)
  8. 印度(147个设施)
  9. 巴西(141个设施)
  10. 中国(138个设施)

主要运营商

  • 顶级运营商:Equinix(177个设施)

数据文件

  • datacenters_cleaned.json - 优化后的数据集
  • datacenters_processed.csv - 处理后的CSV格式数据
  • datacenters_original_scraped.csv - 原始爬取数据
  • datacenters.json - JSON格式结构化数据

使用许可

保留所有权利。未经作者明确书面许可,不得使用、复制、修改或分发此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在数字基础设施地理情报研究领域,ATLAS数据集通过开源情报采集技术构建而成。该系统采用自动化网络爬虫从公开渠道获取全球数据中心的位置信息,经过多轮数据清洗与验证流程,包括地址解析算法、坐标纠错机制和国家别名标准化处理。通过OpenStreetMap Nominatim API对3973个设施进行批量地理编码,成功为2119个设施添加精确坐标,使坐标覆盖率从36.6%提升至70.4%。数据清洗过程修复了970个缺失国家字段的记录,并通过邮政编码地理编码为1708个美国条目补充州级信息。
特点
该数据集囊括全球155个国家的6266个已验证数据中心,涵盖2508家运营企业,构成当前最全面的开源数据中心位置数据库。其核心优势体现在多层次空间精度体系:70.4%的设施具备街道级坐标,其余则采用城市中心坐标作为补充。数据架构支持多维检索,包含设施名称、运营商、物理地址和行政区域等结构化字段。特别设计的坐标回退机制确保所有记录均具备可定位性,同时通过标记聚类技术和热力图可视化,有效处理大规模空间数据的呈现与交互。
使用方法
研究人员可通过多种技术路径利用该数据集,包括直接加载CSV或JSON格式文件进行程序化分析。交互式地图界面提供五类主题可视化方案,集成半径搜索、距离测算和邻近分析等空间分析工具。数据导出功能支持CSV、JSON和GeoJSON三种标准格式,便于与地理信息系统工具链集成。对于特定研究需求,用户可通过国家/公司筛选器快速定位目标子集,或利用应用程序接口实现自定义查询逻辑。命令行工具jq和Python脚本示例为批量数据处理提供标准化操作范式。
背景与挑战
背景概述
随着全球数字化转型浪潮的推进,数据中心作为互联网基础设施的核心节点,其地理分布对网络性能与安全具有战略意义。ATLAS数据中心位置数据集由商业地理空间情报平台于近年主导开发,旨在通过开源情报技术系统性地采集全球数据中心设施的地理坐标与运营信息。该项目汇集了来自155个国家的6,266个已验证数据中心记录,覆盖2,508家运营商,构建出当前最全面的开放数据中心地理数据库,为关键基础设施分析、网络拓扑建模及位置服务提供重要数据支撑。
当前挑战
在数据中心地理定位领域,传统方法难以应对设施信息的动态更新与跨国标准化难题。数据集构建过程中面临多重挑战:原始数据存在15.5%的国家字段缺失与83.5%美国州级信息空白,需通过智能地址解析与邮政编码地理编码进行修复;坐标精度提升需处理2,619个坐标异常案例,包括南半球纬度符号倒置及跨国坐标错位;批量地理编码过程中需平衡API速率限制与数据质量,最终通过多轮验证将精确坐标覆盖率从36.6%提升至70.4%。
常用场景
经典使用场景
在数字基础设施研究领域,ATLAS数据集为全球数据中心的空间分布分析提供了关键支撑。该数据集通过整合全球155个国家的6266个数据中心位置信息,使研究人员能够精确绘制互联网关键节点的地理图谱。其经典应用体现在网络拓扑建模中,学者利用地理坐标数据构建全球数字基础设施的连通性模型,分析数据中心集群的形成规律与区域集中度。
解决学术问题
该数据集有效解决了数字地理学中基础设施可视化的核心难题。通过开源情报采集与坐标验证技术,填补了全球数据中心地理定位数据的空白,使得研究者能够量化分析数字基础设施与区域经济发展的关联性。其精确到城市级别的坐标数据为网络延迟研究、边缘计算布局优化等课题提供了可靠的空间分析基础,推动了关键基础设施韧性评估方法的发展。
衍生相关工作
基于该数据集衍生的经典研究包括网络物理系统安全分析框架的构建,学者通过设施地理聚类发现关键网络节点脆弱性。在可持续计算领域,研究者结合气候数据建立了数据中心能耗与区域温度关联模型。另有团队开发出动态网络流量预测算法,利用设施间距数据优化内容分发路径。这些工作共同推动了空间信息技术与网络科学的交叉融合。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务