AI Diffusion Report Data

github2026-05-07 更新2026-05-10 收录

下载链接：

https://github.com/microsoft/ai-diffusion-report

下载链接

链接失效反馈

官方服务：

资源简介：

AI扩散被定义为在给定时期内使用过生成式AI产品的劳动年龄人口的比例。该指标来源于汇总和匿名的遥测数据，并根据设备、操作系统市场份额、互联网普及率和国家人口等因素进行了调整。该仓库提供了用于已发布报告的国家层面数据集，以及存档的报告PDF。

AI diffusion is defined as the proportion of the working-age population that has used generative AI products within a given period. This metric is derived from aggregated and anonymized telemetry data, and adjusted based on factors including device, operating system market share, internet penetration rate, and national population. This repository provides national-level datasets for published reports, as well as archived report PDFs.

创建时间：

2026-05-01

原始信息汇总

AI Diffusion Report 数据集详情

数据集概述

该数据集由微软AI经济研究所（AIEI）发布，用于衡量全球范围内生成式AI产品的使用扩散情况。核心指标为AI扩散度（AI diffusion），即特定时期内使用过生成式AI产品的劳动年龄人口比例。

核心指标定义

AI扩散度基于汇总和匿名的遥测数据计算，并针对以下因素进行调整：

设备和操作系统市场份额
互联网普及率
国家人口规模

数据内容

数据文件（`data/`目录）

包含国家级别的AI扩散数据，典型字段包括：

国家名称（country）
不同时期的AI用户比例（AI User Share）

报告文件（`reports/`目录）

提供已发布AI扩散报告的PDF版本存档。

数据更新频率

数据定期更新，通常每3-6个月随新报告发布一次。每次更新可能包含：

修订的国家级估算
新增国家或地区
方法论改进

数据用途

该数据集适用于：

研究与分析
政策讨论
可视化与报告

主要局限

反映的是使用情况，而非能力或影响
跨国比较依赖于基础设施差异的调整
估算值会随方法改进而修订

许可协议

MIT License

搜集汇总

数据集介绍

构建方式

人工智能扩散概念源于对生成式AI产品使用情况的量化，其核心指标为特定时期内使用过生成式AI产品的劳动年龄人口占比。该数据集由微软AI经济研究所构建，基于聚合且匿名化的遥测数据，并针对设备与操作系统市场份额、互联网渗透率及国家人口规模等差异进行细致调整，最终形成国家层面的AI扩散估算数据。数据定期更新，通常每三至六个月随新报告发布一次，每次更新可能包含修正后的国家估算、新增国家或地区以及方法论的优化。

特点

该数据集以国家为粒度，聚焦于生成式AI的实际使用行为而非能力或影响，提供了跨时期、可比较的AI扩散趋势。其独特之处在于通过人口归一化处理，使得不同基础设施条件国家的使用率具备可比性。数据集的字段设计清晰，涵盖国家标识及各时期的AI用户份额。此外，数据集伴随完整的技术报告PDF存档，确保方法的透明性与可溯源，为研究者与政策制定者提供了一个动态追踪全球AI采用进程的可靠工具。

使用方法

本数据集主要面向学术研究、政策讨论及可视化报告。用户可直接从GitHub仓库中获取结构化的CSV格式数据文件，并结合发布的PDF报告理解估算背景与调整细节。数据使用遵循MIT开源许可协议，支持自由分析、二次开发与成果发布。建议在跨国家比较时注意调整因素对结果的影响，并考虑将AI扩散指标与其他互补性指标结合使用，以获得对全球AI采纳状况的更全面认知。

背景与挑战

背景概述

人工智能技术的全球扩散是衡量其经济与社会影响力的关键指标，然而，各国AI采纳率的系统量化长期缺乏统一标准。为填补这一空白，微软AI经济研究所（AIEI）于2025年发布AI Diffusion Report Data数据集，由Misra、Wang等研究人员领衔，通过聚合匿名遥测数据并矫正设备市占率、互联网渗透率及人口差异，定义了“AI扩散率”——即特定时期内生成式AI产品的劳动年龄人口使用比例。该数据集提供了国别级面板数据，为宏观政策讨论、比较研究与技术影响评估奠定了方法论基础，成为追踪全球AI应用动态的重要基准。

当前挑战

该数据集的构建面临双重挑战。其一，领域问题层面，AI采纳的度量需克服各国基础设施异构性（如移动设备与操作系统的市场差异），且单一代际指标无法反映使用的深度、能力边界或经济效应，可能引入跨区域比较偏差。其二，构建过程层面，遥测数据的匿名化聚合需兼顾隐私与精度，同时需动态更新以应对新模型涌现（如每3-6个月的版本迭代），而方法论改进（如人口矫正因子的调整）本身可能导致历史估计值的修订，增加了长期追踪的连贯性难度。

常用场景

经典使用场景

在人工智能经济与社会影响研究领域，AI Diffusion Report Data数据集为衡量生成式AI在全球范围内的采纳程度提供了标准化、可量化的基准。其核心应用场景在于通过人口标准化后的AI用户占比指标，追踪不同国家、不同时期的AI使用趋势。研究者可基于此数据集开展跨国比较分析，探讨经济发展水平、数字基础设施、政策环境等因素与AI扩散速度之间的关联，从而构建全球AI采纳的动态图景。该数据集尤其适用于时间序列分析，支持研究者揭示AI技术传播的阶段性特征与地域差异。

衍生相关工作

该数据集衍生出多项重要研究工作，最核心的是Misra等人（2025）在arXiv上发表的配套技术论文，详细阐述了AI扩散指标的计算框架与校准方法。基于该数据，微软AI经济研究所持续发布系列报告，对全球AI采纳趋势进行季度性追踪与解读。在学术圈，已有研究团队将AI扩散数据与宏观经济指标（如GDP、就业率）进行关联分析，探索AI使用率与生产力增长之间的潜在联系。此外，该数据集也被整合进数字发展指数等综合评估工具中，作为衡量国家数字经济活力的重要子指标，推动了跨学科的技术扩散实证研究。

数据集最近研究