GoogleTrendArchive

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/aurman/GoogleTrendArchive

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Google“Trending Now”功能的超过760万条趋势搜索实例，持续收集自2024年11月28日至2026年1月3日，覆盖所有可用的地理区域（200多个国家/地区）。与Google Trends等聚合回顾工具不同，Trending Now捕捉了实时激增的搜索查询，为研究集体注意力动态提供了前所未有的时间粒度。每个实例代表特定搜索词或查询集群根据Google算法成为“趋势”的时刻，包含搜索量区间、精确时间戳、趋势持续时间、地理位置和相关查询变体。数据集由苏黎世大学和斯坦福人工智能实验室的社会计算小组策划，语言为多语言，许可证为CC-BY-4.0。

This dataset contains over 7.6 million trending search instances sourced from Google's "Trending Now" feature, continuously collected from November 28, 2024 to January 3, 2026, covering all available geographic regions (over 200 countries and regions). Unlike aggregated retrospective tools such as Google Trends, "Trending Now" captures real-time surging search queries, providing unprecedented temporal granularity for research on collective attention dynamics. Each instance represents the moment when a specific search term or query cluster is classified as "trending" by Google's algorithms, and includes search volume ranges, exact timestamps, trend durations, geographic locations, and related query variants. The dataset is curated by the Social Computing Group of the University of Zurich and the Stanford Artificial Intelligence Laboratory, supports multiple languages, and is licensed under CC-BY-4.0.

创建时间：

2026-01-14

原始信息汇总

Google Trend Archive 数据集概述

数据集基本信息

数据集名称：Google Trend Archive: Global Real-Time Search Trends (2024-2026)
维护者/作者：Aleksandra Urman, Anikó Hannák, Joachim Baumann (苏黎世大学社会计算小组 & 斯坦福人工智能实验室)
发布日期：2026年
许可协议：CC-BY-4.0
DOI：https://doi.org/10.57967/hf/7531
数据集地址：https://huggingface.co/datasets/aurman/GoogleTrendArchive
联系方式：urman@ifi.uzh.ch

数据集描述

该数据集包含来自Google“正在流行”功能的超过760万条趋势搜索实例，数据持续采集自2024年11月28日至2026年1月3日，覆盖所有可用的地理区域（200多个国家/地区）。与Google Trends等聚合回顾性工具不同，“正在流行”功能捕获的是实时激增的搜索查询，为研究集体注意力动态提供了前所未有的时间粒度。

数据集内容与结构

数据量：超过7,600,000条趋势搜索
时间覆盖范围：2024年11月28日 - 2026年1月3日（因技术问题存在约14天的数据缺口）
地理覆盖范围：1358个国家和地区
数据格式：UTF-8编码的CSV文件
语言：多语言
字段构成：
1. 趋势标识符：搜索查询或相关查询集群的代表性术语
2. 搜索量：指示近似搜索量的分桶流量范围
3. 开始时间戳：Google系统首次标记该趋势出现的时间
4. 结束时间戳：趋势结束并恢复到基线水平的时间
5. 趋势细分：Google聚类在一起的相关查询变体的逗号分隔列表
6. 探索链接：指向相应Google Trends页面以供进一步调查的URL

任务类别与标签

任务类别：文本分类、时间序列预测
标签：google-trends, trending-now, attention-dynamics, information-diffusion, temporal-analysis, search-trends
规模类别：1M<n<10M

预期用途

信息传播建模
事件检测
比较文化研究
危机沟通
时间模式分析
预测建模
媒体生态系统分析
政治传播研究

非预期用途

用于对特定人群的监视或监控
用于营销或商业定向
用于得出关于人口信念的确定性结论
用于识别或追踪个人
用于训练有害应用的模型

数据来源与处理

原始数据生产者：Google的“正在流行”系统
数据收集：使用自动化软件持续监控所有可用地理位置的Google Trends“正在流行”页面
预处理步骤：时间戳标准化、持续时间计算、地理代码标准化、格式整合、数据验证和质量检查
验证程序：跨时间段和位置的完整性自动检查、时间戳一致性验证、重复数据去重、与人工抽查趋势的对比、收集失败记录

局限性、风险与建议

技术局限性：搜索量以分桶形式提供；Google的趋势识别算法不透明；存在数据缺失；趋势代表相对激增而非绝对搜索量。
代表性问题：搜索行为不能均匀代表全部人口；数字鸿沟和互联网普及率差异导致某些人口统计特征被过度/不足代表；搜索引擎市场份额因国家而异；地理覆盖范围有限。
算法中介：Google使用专有算法决定何为“趋势”；基于Google政策的内容过滤可能排除某些趋势；反映的是Google对显著搜索高峰的选择。
解释风险：搜索趋势显示人们搜索什么，而非搜索原因或结论；存在对人群进行不当概括或刻板印象的风险；敏感主题的模式可能污名化社区；缺乏社会背景可能导致误解。
使用建议：承认跨国比较中的代表性限制；解释模式时考虑互联网访问的结构性不平等；避免没有额外证据的因果主张；分析/呈现敏感主题时保持谨慎；解释集体注意力模式时考虑社会背景；以适当的认知谦逊呈现发现；认识到这代表了一个平台对集体注意力的视角。

维护与贡献

维护计划：数据集托管在Hugging Face并由作者维护。当前版本是2024年11月28日至2026年1月3日的快照。计划每2-3个月更新一次，数据收集正在进行中，更新将通过存储库中的变更日志进行沟通。
资助信息：瑞士国家科学基金会博士后流动奖学金P500-2 235328 (JB)；SNSF项目资助215354 (AU and AH)
社区贡献：欢迎衍生数据集、错误报告和扩展数据收集的协作。

搜集汇总

数据集介绍

构建方式

在数字信息时代，追踪全球范围内的实时搜索趋势为理解集体注意力动态提供了独特视角。GoogleTrendArchive数据集的构建依托于自动化软件系统，该系统持续监控Google Trends的“Trending Now”页面，覆盖超过200个国家和地区。数据采集自2024年11月28日至2026年1月3日，期间通过验证程序确保数据完整性，包括时间戳一致性检查和去重处理。预处理阶段将原始数据标准化为ISO 8601时间格式，并整合地理编码，最终形成包含760余万条趋势实例的统一数据集，所有处理代码与原始文件均公开以保障透明度。

使用方法

该数据集适用于多学科研究，尤其适合探索信息扩散建模与事件检测等前沿议题。用户可通过CSV格式文件直接访问数据，利用趋势标识符与时间戳字段追踪特定主题的时空传播路径。在比较文化研究中，可结合地理字段分析不同区域的注意力差异；在危机沟通分析中，则可依据搜索量突增模式识别突发事件。使用时应避免将搜索行为简单等同于群体信念，并注意数据缺失时段的影响，同时遵循学术伦理，不将其用于监控或商业定向等超出范围的应用。

背景与挑战

背景概述

Google Trend Archive数据集由苏黎世大学社会计算小组与斯坦福人工智能实验室的研究人员Aleksandra Urman、Anikó Hannák和Joachim Baumann于2024年至2026年间构建，旨在捕捉全球范围内实时搜索趋势的动态变化。该数据集收录了超过760万条趋势搜索实例，覆盖200多个国家和地区，时间跨度为2024年11月28日至2026年1月3日。其核心研究问题聚焦于集体注意力动力学，通过高时间粒度的搜索激增数据，为信息扩散建模、事件检测和文化比较研究提供了前所未有的实证基础。该数据集的发布填补了谷歌趋势实时数据缺乏系统性归档的空白，对计算社会科学、传播学及危机管理等领域产生了深远影响。

当前挑战

该数据集致力于解决信息扩散与集体注意力建模领域的核心挑战，即如何精准捕捉并解释全球范围内实时搜索行为的时空演化模式。构建过程中面临多重挑战：首先，数据源依赖于谷歌专有算法对“趋势”的识别与聚类，其阈值与逻辑缺乏透明度，可能引入选择偏差；其次，搜索量以区间形式呈现而非精确数值，限制了量化分析的精度；此外，约14天的数据缺失以及互联网接入不平等导致的代表性局限，使得跨地域比较需谨慎处理。这些挑战要求研究者在利用数据时，必须结合社会语境并保持解释的谦逊态度。

常用场景

经典使用场景

在信息科学与社会计算领域，GoogleTrendArchive数据集为研究集体注意力动态提供了前所未有的高粒度时序数据。该数据集最经典的使用场景在于追踪全球范围内搜索趋势的实时涌现与传播路径，研究者能够精确分析特定话题如何在不同地理区域间扩散，揭示信息传播的时空模式与网络结构。例如，通过解析搜索量激增的时间戳与地域分布，可以深入探究突发事件如自然灾害或公共卫生危机期间，公众信息需求的演变轨迹与跨文化差异。

解决学术问题

该数据集有效解决了多个学术研究中的关键问题，特别是在信息扩散建模与事件检测领域。它提供了实证基础，用于检验理论模型如级联传播或注意力经济的预测能力，并助力识别传统媒体监测可能遗漏的突发性事件。此外，数据集支持跨文化比较研究，揭示不同社会政治背景下集体注意力的结构性差异，从而深化对全球信息生态系统动态的理解，推动计算社会科学在方法论上的创新。

实际应用

在实际应用层面，GoogleTrendArchive为危机沟通与公共政策制定提供了数据驱动的洞察。政府部门或非营利组织可借助该数据集实时监测公众对紧急事件（如疫情或极端天气）的信息搜索行为，优化应急响应与信息发布策略。在商业分析中，它有助于理解消费者兴趣的瞬时波动，尽管其设计初衷禁止用于定向营销，但宏观趋势分析仍能为市场感知提供参考。媒体机构亦可对比搜索趋势与新闻覆盖率，评估自身议程设置的有效性。

数据集最近研究