SURGE

Name: SURGE
Creator: 中国科学技术大学; 四川大学; 中关村科技园区
Published: 2026-05-20 21:59:32
License: 暂无描述

arXiv2026-05-20 更新2026-05-22 收录

下载链接：

https://github.com/synlp/SURGE

下载链接

链接失效反馈

官方服务：

资源简介：

SURGE是由中国科学技术大学等机构构建的社交媒体事件基准数据集，专注于多类别公共事件的动态演化分析。该数据集涵盖67个公共事件的817,442条社交媒体帖子，覆盖自然灾害、政治事件、社会运动、技术发布及体育娱乐五大类别，数据来源于Twitter、Reddit和Threads三大平台，通过大语言模型进行情感标注。数据集采用自动化处理流程，构建了三种时间粒度（1天、12小时、6小时）的日历对齐时间序列，并保留了帖子间的回复和转发交互结构。该数据集旨在支持交互感知的预测研究，解决现有社交媒体数据集在事件覆盖、时间序列构建和交互结构保留方面的局限性，为舆情预测和危机响应提供基准测试平台。

SURGE is a benchmark dataset for social media event analysis, constructed by the University of Science and Technology of China and other institutions, focusing on dynamic evolution analysis of multi-class public events. This dataset contains 817,442 social media posts from 67 public events, covering five major categories: natural disasters, political events, social movements, technology releases, and sports and entertainment. The data is collected from three major platforms: Twitter, Reddit, and Threads, with sentiment annotations performed using Large Language Models (LLMs). The dataset adopts an automated processing pipeline to construct calendar-aligned time series with three temporal granularities: 1 day, 12 hours, and 6 hours, while retaining the reply and retweet interaction structures between posts. This dataset aims to support interaction-aware prediction research, addressing the limitations of existing social media datasets in event coverage, time series construction and retention of interaction structures, and providing a benchmark platform for public opinion prediction and crisis response.

提供机构：

中国科学技术大学; 四川大学; 中关村科技园区

创建时间：

2026-05-20

原始信息汇总

SURGE 数据集概述

SURGE（Social-media Unified Reaction-Graph Event dataset）是一个以事件为中心的社交媒体基准数据集，专注于将情感时间序列与文本及评论/转发交互结构相结合。

数据集结构

目标变量：涵盖两个预测目标——讨论强度（DI，以帖子数量 c_t = |P_t| 衡量）和情感极性（SP，以平均情感分数 ar{s}_t 衡量）。
时间粒度：支持三种时间粒度：6小时（6H）、12小时（12H）和1天（1D）。分别覆盖 67、64 和 55 个事件。
文件组织：每个事件-粒度目录包含以下文件：
- comment_count.csv：讨论强度原始值（空区间为 NaN）。
- comment_count_normalized.csv：讨论强度，按事件 z-score 归一化。
- sentiment_polarity.csv：情感极性原始值。
- sentiment_polarity_normalized.csv：情感极性，按事件 z-score 归一化。
- normalization.json：仅基于训练集的归一化统计量。
- text_view.jsonl：每个时间区间的前 3 条主帖和最早的 2 条回复（以帖子 ID 表示）。
全局文件：事件目录下包含 edges.jsonl（评论/转发边，含帖子 ID 和 ISO 时间）和 post_id_lookup.jsonl（帖子 ID 到平台及 URL 的映射）。

数据处理

空区间（零观测帖子）以 NaN 编码。
基准数据加载器在按时间顺序划分的 70/10/20 分割段内，先进行前向填充，再进行后向填充，确保插补不跨越分割边界。

使用方式

安装依赖：pip install -r requirements.txt
可通过 event_config.py 程序化获取事件注册表（共 67 个事件）。
使用 benchmark/data_loader.py 中的 create_dataloaders 函数加载数据，支持指定粒度、目标变量、序列长度和预测长度。

许可证

代码采用 MIT 许可证。
data/ 目录下的作者创作衍生数据采用 CC BY 4.0 许可证。

引用

论文引用信息将在最终版本时添加。

搜集汇总

数据集介绍

构建方式

在社交媒体事件分析领域，现有数据集或局限于单一事件类别，或在构建时间序列时丢弃了帖子间的交互结构。SURGE数据集的构建基于一个自动化流水线，首先从Twitter、Reddit和Threads三个平台收集原始帖子，通过去重、短文本过滤、非英语文本剔除等步骤进行清洗，并利用大语言模型为每篇帖子标注积极、中性或消极三种情感标签。随后，系统检测每个事件的活跃周期，将帖子按日历时间对齐，构建1天、12小时和6小时三种粒度的讨论强度与情感极性时间序列。同时，每个时间窗口保留帖子间的回复与转发关系，形成结构化文本视图，确保交互信息得以完整保存。

使用方法

SURGE数据集定义了多种基准协议，包括纯数值预测、文本增强预测、高交互时段评估及留一类别泛化测试。数值预测仅使用历史时间序列作为输入，而文本增强预测则引入扁平或结构化文本视图，以评估文本内容与回复链结构对预测的影响。高交互评估通过MAEreply(k%)指标聚焦回复密集时段，揭示聚合指标掩盖的模型行为差异。留一类别泛化协议则检验模型在不同事件类别间的迁移能力，为跨事件类型的预测研究提供了标准化评估框架。

背景与挑战

背景概述

社交媒体上的公共事件催生了海量讨论，其集体动态对舆情预测与危机响应具有直接价值。然而，现有数据集或局限于单一事件类别，或在构建时间序列时丢弃了帖子间的交互结构，导致跨事件类型的迁移研究以及交互结构如何影响集体动态的受控实验难以开展。为弥合这一鸿沟，中国科学技术大学、四川大学与中关村学院的联合研究团队于2026年发布了SURGE基准数据集。该数据集通过自动化流水线从Twitter、Reddit和Threads三个平台收集数据，涵盖自然灾害、政治事件、社会运动、技术发布及体育娱乐五大类别共67个事件，包含超过81.7万条帖子，并提供1天、12小时和6小时三种时间粒度的日历对齐时间序列，每个时间桶均配以平面文本与结构化文本两种视图，同时保留了帖子间的回复与转发交互结构。SURGE的核心研究问题在于探索社交媒体交互结构是否影响情绪动态的预测行为，其发布为事件驱动的社交媒体预测研究提供了前所未有的标准化评测平台。

当前挑战

SURGE所应对的领域挑战是多方面的。首先是事件驱动序列的强局部持久性与偶发剧烈偏差的共存问题：传统时间序列预测模型在SURGE上难以在平均绝对误差上超越简单的“上一值”基线，表明平方误差目标虽能抑制大偏差却无法提升中心趋势精度。其次是现有文本增强型预测模型向社交媒体数据的迁移困境：为新闻报道或财务公告设计的模型（如GPT4MTS和CAMEF）对社交媒体的回复链结构响应不足，文本内容与结构信息的价值未被充分挖掘。在构建层面，挑战同样严峻。数据来源异构性要求统一Twitter、Reddit和Threads三种平台的原始模式，需要处理不一致的字段命名、不完整的元数据以及平台特定的编码惯例。事件活跃期检测需平衡阈值设定，既要排除讨论前后的稀疏噪音，又要保留突发事件的完整动态。情感标注依赖于大语言模型的零样本推理，尽管人工验证显示其与人类共识的一致率达86.5%，但仍需警惕系统偏差，并通过聚合操作将单条标注误差控制在较低水平。此外，每事件至少21个时间桶的最小要求导致不同时间粒度下的事件覆盖数存在差异（1天粒度55个，6小时粒度67个），这增加了跨粒度比较的复杂性。

常用场景

经典使用场景

在社交媒体舆情分析与意见动态预测的研究领域中，SURGE数据集被广泛用于事件级情感时间序列的数值预测任务。研究者借助其提供的多粒度时间序列（1日、12小时、6小时），可以系统性地评估从简单基线（如Last Value）到复杂深度学习模型（如PatchTST、iTransformer、GPT4TS）在讨论强度和情感极性两种目标上的预测性能。该数据集特别适合用于检验模型在面对由公众注意力起伏驱动而非规则物理过程驱动的时间序列时的表现，从而揭示事件驱动型社交媒体数据中存在的强局部持续性现象。

解决学术问题

SURGE数据集填补了现有研究资源中缺乏同时具备事件级组织、预构建时间序列、对齐文本视图以及显式社交互动结构的基准的重大空白。它解决了三个关键学术问题：其一，揭示现有文本增强时间序列预测模型在跨领域迁移至社交媒体事件数据时的局限性；其二，通过结构感知评估指标MAE_reply(k%)，量化回复密集时段对预测难度的显著影响，证明聚合指标会掩盖模型在高互动时期的失败；其三，利用留一类别泛化协议，揭示不同事件类别之间预测能力的不对称性，为跨事件类型的泛化研究提供了标准化测试平台。

实际应用

SURGE数据集在实际应用中展现出显著价值，尤其适用于危机响应、政策评估和舆情监测等需要前瞻性预测而非事后描述的决策场景。例如，在自然灾害发生后，通过分析讨论强度和情感极性的时间序列，可以预判公众情绪转折点，为应急管理部门提供实时干预窗口；在政治事件或社交媒体运动中，该数据集能够帮助监测机构识别信息扩散的关键时刻，理解回复链结构如何影响集体意见的演化，从而制定更加精准的沟通策略。其多平台（Twitter、Reddit、Threads）覆盖特性进一步增强了跨社区应用的鲁棒性。

数据集最近研究