five

无标签微博数据集 (UWeibo), 无标签推特数据集 (UTwitter), 十年谣言微博数据集 (DRWeibo)

收藏
arXiv2025-08-06 更新2025-08-08 收录
下载链接:
https://anonymous.4open.science/r/UWeibo-D405 https://anonymous.4open.science/r/UTwitter-C882 https://anonymous.4open.science/r/DRWeibo-16EB +https://service.account.weibo.com/?type=5
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用来自微博和推特平台的大规模无标签主题数据集,以改善图表示学习模型在各种主题上的语义学习能力。为了缓解无标签主题数据与谣言数据在时间和主题上的差异,还收集了一个覆盖过去十年各种主题的谣言数据集。这些数据集对于谣言检测研究非常有用。

This study employs a large-scale unlabeled topical dataset sourced from Weibo and Twitter platforms to enhance the semantic learning capability of graph representation learning models across diverse topics. To mitigate the temporal and topical discrepancies between unlabeled topical data and rumor datasets, we additionally collected a rumor dataset covering a wide range of topics over the past decade. These datasets are of great value to rumor detection research.
提供机构:
北京交通大学计算机与信息技术学院
创建时间:
2025-08-06
搜集汇总
数据集介绍
main_image_url
构建方式
无标签微博数据集(UWeibo)和无标签推特数据集(UTwitter)的构建采用了社交媒体平台的数据爬取技术,针对2022至2023年间发布的普通话题内容进行采集,每个数据集包含约20万条传播结构完整的声明。十年谣言微博数据集(DRWeibo)则通过整合微博辟谣平台2012至2022年间的官方数据,涵盖6,037条多主题谣言样本,采用人工标注方式构建二元分类标签体系。三类数据集均以传播树结构为核心特征,节点代表源帖或用户评论文本,边表征回复关系。
特点
该系列数据集在时空维度和语义广度上具有显著优势。UWeibo和UTwitter通过海量无标签数据覆盖当代热点话题,有效缓解模型训练中的时间滞后性问题;DRWeibo凭借长达十年的标注数据跨度,为研究谣言演化规律提供时序分析基础。传播树结构的多层级特性可捕捉信息扩散路径中的语义特征,而节点初始特征支持Word2vec、TF-IDF及预训练语言模型等多种嵌入方式,为图表示学习提供灵活的特征工程空间。
使用方法
数据集支持预训练-微调和半监督两种训练范式。预训练阶段可在无标签数据集上通过InfoGraph的互信息最大化、JOAO的自适应图增强或GraphMAE的掩码自编码等自监督方法学习通用表示;微调阶段则结合Weibo、Twitter15/16等基准数据集进行监督训练。半监督策略通过将自监督损失作为正则项,实现有标签和无标签数据的联合优化。实验表明,该框架在少样本场景下仍能保持优越性能,特别适用于标注数据稀缺的现实场景。
背景与挑战
背景概述
无标签微博数据集(UWeibo)、无标签推特数据集(UTwitter)和十年谣言微博数据集(DRWeibo)由北京交通大学计算机与信息技术学院的崔超群和贾彩燕团队于2025年构建,旨在解决社交媒体谣言检测中的关键问题。随着社交媒体的快速发展,谣言的迅速传播对社会和经济造成了巨大危害。尽管基于谣言传播结构学习的方法在检测谣言方面表现出色,但现有方法仍面临大规模标注数据难以获取、模型泛化能力不足以及在新事件上性能下降等问题。为此,研究团队通过爬取社交媒体平台上的大规模无标签话题数据,并结合自监督图表示学习方法,提升了模型在不同话题上的语义学习能力。此外,团队还整合了微博辟谣平台十年间的谣言数据,构建了涵盖多种话题的DRWeibo数据集,为谣言检测研究提供了宝贵资源。
当前挑战
该数据集面临的挑战主要包括两方面:首先,在领域问题方面,谣言检测任务需要处理时间敏感性和话题多样性带来的数据分布差异,现有数据集往往存在时间跨度大、话题单一的问题,导致模型在新事件上的检测性能下降。其次,在构建过程中,研究团队需克服大规模无标签数据爬取与清洗的复杂性,确保数据质量和代表性;同时,标注数据的稀缺性以及谣言在社交媒体上被迅速删除的特性,也为数据集的构建带来了显著挑战。此外,如何有效利用无标签数据提升模型在少样本条件下的性能,也是该领域亟待解决的关键问题。
常用场景
经典使用场景
无标签微博数据集(UWeibo)和无标签推特数据集(UTwitter)以及十年谣言微博数据集(DRWeibo)在谣言检测领域具有广泛的应用场景。这些数据集特别适用于基于图表示学习的谣言检测任务,通过捕捉谣言传播树的结构特征,结合文本语义信息,能够有效识别和分类社交媒体上的虚假信息。经典的使用场景包括利用大规模无标签数据增强模型的泛化能力,以及通过时间跨度较长的标签数据解决新旧谣言之间的时间差异问题。
实际应用
在实际应用中,这些数据集为社交媒体平台提供了高效的谣言识别工具。例如,微博和推特可利用其构建实时检测系统,通过分析用户互动形成的传播树结构,快速定位潜在谣言。公共安全领域则能借助DRWeibo的历史数据建立跨时间维度的预警模型,尤其适用于公共卫生事件或突发事件中谣言传播的早期干预。
衍生相关工作
基于这些数据集衍生的经典工作包括:InfoGraph通过互信息最大化实现传播树表征学习;JOAO采用对抗性数据增强策略优化图对比学习;GraphMAE则创新性地将掩码自编码器应用于谣言检测。这些方法不仅超越了传统BiGCN等专用模型,还推动了RAGCL等最新SOTA模型的发展,形成了从专用设计到通用框架的方法论转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作