us-attention-data

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/lukeslp/us-attention-data

下载链接

链接失效反馈

官方服务：

资源简介：

US Attention Data 是一个用于追踪全球对美国关注度的数据集，结合了维基百科页面浏览量、GDELT全球事件提及和Google Trends搜索兴趣数据，时间跨度为2020年至2025年。该数据集旨在通过多平台数据构建综合关注度指标，适用于时间序列预测和特征提取任务。数据集包含多个JSON文件，总大小约为4.2 MB，涵盖了每日页面浏览量、事件相关文章元数据、趋势文章检测、搜索兴趣指数、每周趋势主题聚合、GDELT事件时间线、每周事件计数和情绪分析等。数据来源包括维基百科页面浏览量API、GDELT项目和Google Trends，覆盖了2020年至2025年的每日和每周数据。该数据集可用于追踪全球对美国关注度的变化、关联媒体事件与维基百科流量和搜索兴趣、识别季节性关注模式（如选举、假日、危机）以及构建来自多个独立信号的复合关注度指数。

创建时间：

2026-02-09

原始信息汇总

US Attention Data 数据集概述

数据集基本信息

数据集名称: US Attention Data
托管平台: Hugging Face
许可证: MIT
任务类别: 时间序列预测、特征提取
主要语言: 英语
数据规模: 1K < n < 10K
总大小: 约 4.2 MB

数据集内容与目的

该数据集提供每周跨平台的注意力指标，用于追踪世界对美国关注度的变化。它整合了2020年至2025年期间的维基百科页面浏览量、GDELT全球事件提及和谷歌趋势搜索兴趣数据。该数据集专为“one-year”可视化项目而构建，旨在绘制美国全球情绪随时间变化的图谱，属于“Data Trove”数据集合的一部分。

数据文件详情

数据集包含以下11个JSON文件：

wikipedia_pageviews.json (2.5 MB): 美国相关维基百科文章的每日页面浏览量计数。
wikipedia_event_articles.json (214 KB): 与事件关联的文章元数据。
wikipedia_trending.json (256 KB): 趋势文章检测数据。
trends_data.json (810 KB): 谷歌趋势搜索兴趣随时间变化的数据。
weekly_trends.json (26 KB): 每周趋势主题聚合数据。
gdelt_timeline.json (131 KB): GDELT事件提及时间线。
gdelt_weekly_events.json (158 KB): GDELT每周聚合事件计数和情绪基调数据。
events_unified.json (89 KB): 所有来源的统一事件数据。
weekly_attention_timeline.json (57 KB): 每周注意力指标的综合数据。
unified_data.json (27 KB): 所有注意力来源的合并数据集。
attention_metadata.json (2 KB): 集合元数据和模式定义。

数据来源

来源	追踪内容	覆盖范围
维基百科页面浏览量API	文章浏览量计数	2020-2025年，每日
GDELT项目	全球事件提及和媒体情绪基调	2020-2025年，每周
谷歌趋势	搜索兴趣指数	2020-2025年，每周

主要应用场景

追踪全球对美国关注度随时间的变化。
将媒体事件与维基百科流量和搜索兴趣相关联。
识别季节性关注模式（如选举、假日、危机）。
基于多个独立信号构建复合注意力指数。

作者与许可

作者: Luke Steuber
许可证: MIT。数据源自维基百科（CC BY-SA）、GDELT（开放）和谷歌趋势（研究合理使用）。

搜集汇总

数据集介绍

构建方式

在媒体分析与时间序列预测领域，US Attention Data数据集通过整合多源异构数据构建而成。其构建过程始于2020年至2025年间，系统采集了维基百科页面浏览量、GDELT全球事件提及以及谷歌趋势搜索兴趣指数。这些数据经过清洗与对齐，以周为单位进行聚合，最终融合为统一的注意力指标时间序列，确保了跨平台数据在时间维度上的一致性。

特点

该数据集的核心特点在于其多维度的注意力度量体系。它涵盖了从维基百科的页面浏览动态、GDELT的媒体事件与情感倾向，到谷歌趋势的搜索行为模式，形成了对全球关注美国态势的立体观测。数据以周频率呈现，便于捕捉短期注意力波动，同时文件结构清晰，包含原始数据与聚合指标，支持从微观事件分析到宏观趋势研究的多种需求。

使用方法

使用该数据集时，研究人员可通过加载JSON文件直接访问结构化数据。例如，weekly_attention_timeline.json提供了跨平台的周度注意力综合视图，适合时间序列分析与可视化。数据集支持Python与D3.js等工具，便于进行注意力模式识别、事件相关性分析或构建复合注意力指数，为媒体研究、舆情监测及预测建模提供实证基础。

背景与挑战

背景概述

在数字媒体与全球信息流分析领域，量化公众对特定国家或事件的关注度已成为理解国际关系与社会动态的关键课题。US Attention Data数据集由研究者Luke Steuber于2020年至2025年间构建，旨在通过整合维基百科页面浏览量、GDELT全球事件提及及谷歌趋势搜索兴趣等多源时序数据，系统追踪全球对美国关注度的周度变化。该数据集作为“Data Trove”系列的一部分，支撑了“one-year”可视化项目，为媒体分析、舆情监测及国际政治研究提供了跨平台的注意力度量基准，推动了基于多信号融合的宏观社会感知方法的发展。

当前挑战

该数据集致力于解决跨平台注意力度量的复杂性问题，其核心挑战在于如何将异构数据源（如维基百科的页面浏览记录、GDELT的事件情感倾向与谷歌趋势的搜索指数）进行时序对齐与标准化，以构建一致的注意力指标。在构建过程中，研究者需克服多源数据采集的异步性、不同平台数据粒度与语义的差异，以及大规模时序数据融合时的噪声过滤问题。此外，确保数据在长期跨度下的稳定性与可比性，同时兼顾隐私合规与开源许可的平衡，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在媒体分析与时间序列预测领域，US Attention Data数据集通过整合维基百科页面浏览量、GDELT全球事件提及和谷歌趋势搜索兴趣，为追踪全球对美国关注度的动态变化提供了多源数据支撑。该数据集最经典的使用场景在于构建复合注意力指数，研究者能够分析重大事件如选举、危机或节假日期间，不同平台上的注意力信号如何协同波动，从而揭示跨媒体关注模式的季节性规律与异常峰值。

衍生相关工作

该数据集衍生了多项经典研究工作，其中最突出的是‘one-year’可视化项目，该项目利用这些注意力指标绘制了美国全球情感随时间变化的动态图谱。此外，在数据科学领域，研究者基于该数据集开发了多源时间序列融合算法，用于提升注意力预测的准确性。这些工作不仅拓展了媒体分析的方法论，还为跨学科研究如计算社会科学提供了宝贵的基准数据资源。

数据集最近研究