five

CrisisNews

收藏
arXiv2025-10-14 更新2025-11-05 收录
下载链接:
https://crisis-news.netlify.app/
下载链接
链接失效反馈
官方服务:
资源简介:
CrisisNews数据集收集了2004年至2023年间国际新闻报道中的93,250篇新闻文章,涵盖了20年来社交媒体危机。该数据集通过关键词过滤、GPT-4辅助标注和语义合并,识别了在社交媒体平台上开始并加剧的事件。然后,我们对1354个具有统计代表性的事件进行了详细标注,根据新闻文章中提供的信息,对每个事件进行分类,包括利益相关者角色、在线问题行为、平台参与和结果。通过这个数据集,我们提供了对社交媒体危机性质的更深入理解,重点关注对在线问题行为或危机中的利益相关者模式的跨分析。我们的研究结果为预测潜在的社交媒体危机提供了有价值的见解,这些危机由社交媒体用户及其行为驱动,可以告知更安全、更值得信赖的社交媒体环境的设计。

The CrisisNews dataset collects 93,250 news articles from international news reports between 2004 and 2023, covering 20 years of social media crises. This dataset identifies events that originated and escalated on social media platforms through keyword filtering, GPT-4-assisted annotation, and semantic merging. Subsequently, we conducted detailed annotations on 1,354 statistically representative events, classifying each event based on information provided in the news articles into categories including stakeholder roles, online problematic behaviors, platform engagement, and outcomes. Through this dataset, we provide a deeper understanding of the nature of social media crises, with a focus on cross-analyses of patterns related to online problematic behaviors or stakeholders in crises. Our findings offer valuable insights for predicting potential social media crises driven by social media users and their behaviors, which can inform the design of safer and more trustworthy social media environments.
提供机构:
韩国科学技术院(KAIST)
创建时间:
2025-10-14
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体危机研究领域,CrisisNews数据集通过系统化流程构建而成。研究团队从2004至2023年间的全球新闻源中收集初始数据,采用多阶段筛选策略:首先基于社交媒体平台关键词进行初步筛选,继而通过172个社交媒体特征关键词精炼数据,最后利用GPT-4o模型对文章标题进行二元标注,确保事件既源于社交媒体平台又包含在线问题行为。这种结合关键词过滤与智能标注的混合方法,最终从918万篇初始文章中萃取出93,250篇高质量危机报道。
特点
该数据集展现出显著的时空维度特征,涵盖二十年跨度的社交媒体危机演化轨迹。其核心价值体现在多维标注体系上,不仅包含基于信任与安全专业协会框架的28种在线问题行为分类,还创新性地引入了“和谐破坏”这一新兴危机类型。数据集特别注重利益相关者关系的刻画,通过影响力层级与群体规模的交叉分类,构建出精细化的危机互动图谱。此外,数据集还完整记录了危机发生的具体平台与后续影响,为理解危机传播机制提供了丰富语境。
使用方法
研究者可借助该数据集开展多维度分析,通过利益相关者关系矩阵探索危机中的权力动态,利用时间序列分析追踪危机演化规律。数据集支持跨平台比较研究,揭示不同社交媒体生态中的危机特征差异。在方法论层面,建议结合新闻文本分析与社交平台数据,形成互补的研究视角。对于大规模数据分析,可采用随机抽样方法获取统计显著性样本,同时注意新闻源的地域分布特征,适当调整分析权重以平衡潜在偏差。
背景与挑战
背景概述
随着全球社交媒体普及率的持续攀升,在线问题行为逐渐演变为大规模危机事件,亟需发展更为系统的应对策略。在此背景下,韩国科学技术院的研究团队于2025年创建了CrisisNews数据集,该资源汇集了2004至2023年间93,250篇涉及社交媒体原生危机的新闻报道。通过构建跨越二十年的纵向数据档案,该数据集致力于揭示在线问题行为的演化规律、利益相关者互动模式及其社会影响,为人机交互与危机信息学领域提供了重要的实证基础。
当前挑战
在社交媒体危机研究领域,现有工作多聚焦于内容层面分析,缺乏对事件演化路径的系统性比较。CrisisNews构建过程中面临双重挑战:在数据采集环节需通过多轮关键词筛选与GPT-4辅助标注,从逾九百万篇初始报道中精准识别社交媒体原生危机事件;在理论框架层面需突破传统危机信息学的离线事件研究范式,建立适用于数字空间危机特征的分类体系,包括利益相关者角色、行为类型与后果等多维度的标注标准。
常用场景
经典使用场景
在社交媒体危机研究领域,CrisisNews数据集为分析在线有害行为的演化模式提供了关键支撑。该数据集通过整合二十年间九万余篇新闻报道,构建了以事件为中心的分析框架,使研究者能够追踪社交媒体特有危机的起源、升级和干预过程。其经典应用体现在对危机事件的多维度标注体系,涵盖利益相关者角色、行为类型和平台参与等要素,为理解数字环境中大规模有害行为的动态演变提供了系统化视角。
解决学术问题
该数据集有效解决了社交媒体危机研究中的方法论难题,突破了传统以内容或用户为分析单元的局限。通过事件比较的宏观视角,它揭示了不同危机类型在时间维度上的演化规律,特别是对“和谐破坏”这类新兴有害行为的系统分类,填补了现有理论框架的空白。其构建的危机信息学分析范式,为数字平台治理提供了实证基础,推动了从被动内容审核向主动危机预防的学术转型。
衍生相关工作
该数据集催生了社交媒体危机比较研究的新范式,衍生出多个重要研究方向。基于其标注体系,学者开发了危机演化预测模型,探索不同利益相关者互动对事件升级的影响机制。在跨文化研究方面,数据集揭示了东西方社会对“和谐破坏”行为的差异化认知,推动了文化敏感的内容审核框架构建。其方法论还启发了结合新闻叙事与平台数据的混合研究路径,为数字社会治理提供了更全面的分析工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作