MASH
收藏arXiv2025-09-28 更新2025-10-01 收录
下载链接:
https://huggingface.co/datasets/YRC10/MASH
下载链接
链接失效反馈官方服务:
资源简介:
MASH数据集是一个多平台和多模态标注的飓风社会影响数据集,由伊利诺伊大学厄巴纳-香槟分校等机构创建。该数据集包含来自Reddit、X(Twitter)、TikTok和YouTube的98,662条与飓风相关的社交媒体数据帖子。所有相关社交媒体数据帖子都采用多模态方法进行标注,考虑了文本和视觉内容的三个维度:人道主义类别、偏见类别和信息完整性类别。MASH数据集旨在研究飓风对社会的影响,例如灾害严重程度分类、公众情绪分析、灾害政策制定和偏见检测。
The MASH dataset is a multi-platform and multi-modal annotated hurricane social impact dataset, created by the University of Illinois Urbana-Champaign and other institutions. It contains 98,662 hurricane-related social media posts from Reddit, X (Twitter), TikTok, and YouTube. All relevant posts are annotated using a multi-modal approach that considers three dimensions of their textual and visual content: humanitarian categories, bias categories, and information integrity categories. The MASH dataset aims to study the social impacts of hurricanes, such as disaster severity classification, public sentiment analysis, disaster policy formulation, and bias detection.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2025-09-28
原始信息汇总
MASH数据集概述
数据集基本信息
- 数据集名称: Multiplatform Annotated Dataset for Societal Impact of Hurricane (MASH)
- 发布日期: 2025-05-14
- 版本: 1.0
- 许可证: CC-BY-4.0
- 语言: 英语
- 数据规模: 10K<n<100K(包含98,662条相关社交媒体帖子)
数据来源与类型
- 数据平台: Reddit、X、TikTok、YouTube
- 数据类型: 多模态(文本、图像、视频)
- 标注类型: 专家标注、LLM标注、混合标注
- 任务类别: 文本分类、图像分类、视频分类
标注维度
人道主义类别
每个帖子标注七个二元人道主义类别:
- 伤亡情况:报告人员或动物死亡、受伤或失踪
- 疏散情况:描述人员或动物疏散、转移、救援或流离失所
- 损害情况:报告基础设施或公共设施损坏
- 建议指导:提供飓风相关建议、指导或安全防护信息
- 求助请求:因飓风请求帮助、支持或资源
- 援助支持:提供物质援助或情感心理支持
- 恢复重建:描述灾后恢复和重建工作
偏见类别
每个帖子标注五个二元偏见类别:
- 语言偏见:包含偏见、不当或冒犯性语言
- 政治偏见:表达政治意识形态倾向
- 性别偏见:包含性别相关偏见或歧视性观点
- 仇恨言论:表达对特定群体的仇恨或敌意
- 种族偏见:针对种族或族裔群体的偏见性陈述
信息完整性类别
每个帖子标注单一信息完整性类别:
- -1:虚假信息(错误信息或虚假信息)
- 0:无法验证信息(证据不足或不清楚)
- 1:真实信息(可验证且准确)
数据集特点
- 首个大规模、多平台、多模态、多维度标注的飓风数据集
- 支持飓风对社会影响研究,包括灾害严重程度分类、事件检测、公众情绪分析和偏见识别
- 配套在线分析平台:https://hurricane.web.illinois.edu/
使用说明
- 数据集包含四个标注文件:reddit_anno_publish.csv、tiktok_anno_publish.csv、twitter_anno_publish.csv、youtube_anno_publish.csv
- 仅提供帖子ID,需通过各平台官方API获取完整内容
- 支持多类别同时标注,单个帖子可标记多个类别
引用信息
- ZENODO DOI: https://zenodo.org/records/15401479
搜集汇总
数据集介绍

构建方式
在飓风灾害研究领域,MASH数据集通过整合多平台社交媒体数据构建而成。研究团队采用系统化数据采集策略,针对2024年飓风季的赫尔曼与米尔顿飓风事件,从Reddit、X、TikTok和YouTube四大平台收集了13万余条原始数据。通过基于多模态大语言模型与人工协作的标注框架,对文本、图像和视频内容进行联合分析,最终筛选出98,662条有效数据并完成多维度标注,确保了数据构建的时效性与完整性。
特点
该数据集展现出三大核心特征:多平台覆盖性囊括了不同用户群体的交流模式,多模态融合性突破了传统单模态分析的局限,多维度标注体系则实现了人道主义类别、偏见类别与信息完整性类别的协同标注。特别值得注意的是,数据集首次将视觉内容与文本内容进行联合标注,并引入在线事实核查机制,为研究飓风社会影响提供了前所未有的细粒度分析基础。
使用方法
研究人员可通过Hugging Face平台获取该数据集,其多维标注体系支持灾害严重程度分类、偏见检测和虚假信息传播分析等研究任务。数据集采用标准化的数据分割方案,包含训练集、验证集和测试集,并提供了基于RoBERTa等预训练模型的基准性能指标。使用者可借助多模态机器学习方法,探索不同标注维度间的关联规律,亦可基于时空分析模块研究灾害事件的动态演变过程。
背景与挑战
背景概述
飓风作为最具破坏性的自然灾害之一,不仅造成严重物理损害,更在社交媒体平台引发广泛讨论。2025年由伊利诺伊大学厄巴纳-香槟分校领衔的多学科团队发布的MASH数据集,聚焦2024年飓风季的赫尔曼与米尔顿飓风,整合来自Reddit、X、TikTok和YouTube四大平台的98,662条多模态社交媒体数据。该数据集突破传统单平台文本分析的局限,通过融合文本与视觉内容的多维度标注体系,涵盖人道主义分类、偏见类别与信息完整性三大维度,为研究飓风社会影响提供了首个大规模、多平台、多模态标注的基准数据。
当前挑战
在领域问题层面,传统飓风数据集受限于单一平台和分离式模态标注,难以捕捉当代社交媒体生态中跨平台、多模态内容的复杂社会影响。构建过程中面临三重挑战:多平台数据异构性导致的内容标准化难题,需设计统一采集框架协调不同媒体格式;多模态标注的语义融合困境,要求开发人机协同标注机制确保文本与视觉信息的一致性;动态信息验证的技术瓶颈,特别是在信息完整性标注中需结合实时网络检索应对虚假信息泛滥。
常用场景
经典使用场景
在飓风灾害研究领域,MASH数据集为多模态社交媒体分析提供了重要支撑。该数据集通过整合Reddit、X、TikTok和YouTube四大平台的98,662条标注数据,构建了跨平台多模态分析框架。其经典应用体现在对飓风期间社交媒体内容的系统性监测,能够同时追踪文本、图像和视频中呈现的灾害影响,为理解公众在灾害中的信息传播模式提供了多维视角。
衍生相关工作
基于MASH数据集的创新特性,已衍生出多个重要研究方向。在跨平台分析领域,研究者开发了融合多模态特征的灾害影响评估模型;在偏见检测方面,涌现出结合语言学特征与视觉内容的联合分析方法;信息完整性验证方向则催生了基于实时网络检索的虚假信息识别系统。这些衍生工作共同推动了灾害社交媒体分析从单模态向多模态、从单平台向跨平台的理论范式转变。
数据集最近研究
最新研究方向
在自然灾害社会影响研究领域,MASH数据集通过整合多平台社交媒体数据开辟了新的研究方向。该数据集聚焦2024年飓风季最新灾害事件,突破了传统单平台数据局限,实现了对Reddit、X、TikTok和YouTube四平台98,662条多模态数据的协同标注。研究前沿体现在三维标注体系构建——人道主义类别、偏见类别与信息完整性类别的多维度交叉分析,为灾害期间虚假信息传播机制、公众情绪演化规律及社会偏见形成路径研究提供了全新视角。特别是在多模态大模型辅助标注框架下,该数据集推动了灾害响应中跨平台传播动力学、偏见检测算法优化等热点研究,对提升灾害管理决策科学性与舆情引导精准度具有重要价值。
相关研究论文
- 1MASH: A Multiplatform and Multimodal Annotated Dataset for Societal Impact of Hurricane伊利诺伊大学厄巴纳-香槟分校 · 2025年
以上内容由遇见数据集搜集并总结生成



