PHEME|社交媒体数据集|谣言传播数据集

figshare.com2024-11-02 收录

社交媒体

谣言传播

下载链接：

https://figshare.com/articles/dataset/PHEME_dataset_of_rumours_and_non-rumours/4010619

下载链接

链接失效反馈

资源简介：

PHEME数据集是一个用于研究社交媒体上谣言传播的公开数据集。它包含了多个事件的Twitter数据，每个事件都有相关的谣言和非谣言信息。数据集的目的是帮助研究人员分析和理解社交媒体上的信息传播模式，特别是谣言的产生和扩散过程。

提供机构：

figshare.com

AI搜集汇总

数据集介绍

构建方式

PHEME数据集的构建基于对社交媒体平台上谣言传播的深入分析。该数据集通过自动抓取和人工验证相结合的方式，收集了大量关于特定事件的推文和评论。数据经过多轮筛选和标注，确保了信息的准确性和可靠性。此外，数据集还包含了用户互动数据，如转发、点赞和评论，以全面反映谣言在社交网络中的传播路径和影响。

特点

PHEME数据集的显著特点在于其多维度的信息结构和高质量的标注。数据集不仅涵盖了谣言的文本内容，还包括了与之相关的用户行为和社交网络结构。这种多层次的数据结构使得研究者能够从多个角度分析谣言的传播机制。此外，数据集的标注采用了多专家共识的方法，确保了标注的一致性和准确性。

使用方法

PHEME数据集适用于多种研究场景，包括但不限于谣言检测、信息传播模型构建和社交网络分析。研究者可以通过数据集中的文本数据进行自然语言处理，识别谣言的特征和模式。同时，用户互动数据可以用于构建和验证社交网络模型，分析谣言在网络中的传播路径。此外，数据集的高质量标注为机器学习算法的训练提供了可靠的基础。

背景与挑战

背景概述

PHEME数据集，由英国南安普顿大学于2015年创建，主要研究人员包括Arkaitz Zubiaga和Maria Liakata等。该数据集专注于社交媒体上的谣言检测与分析，收集了Twitter上关于多个突发事件的推文及其相关信息。PHEME的核心研究问题是如何在社交媒体环境中自动识别和验证谣言，这对于危机管理和公众信息传播具有重要意义。PHEME的发布极大地推动了社交媒体分析领域的发展，为研究人员提供了丰富的数据资源，促进了谣言检测技术的进步。

当前挑战

PHEME数据集在构建和应用过程中面临多重挑战。首先，社交媒体数据的实时性和动态性使得谣言的识别和验证变得复杂，需要高效的算法和模型来处理海量数据。其次，谣言的多样性和传播路径的复杂性增加了数据分析的难度，要求研究者开发更加精细的分类和追踪方法。此外，数据集的构建过程中还需应对隐私保护和数据伦理问题，确保收集和使用数据的过程符合相关法律法规。这些挑战共同构成了PHEME数据集研究的重要课题。

发展历史

创建时间与更新

PHEME数据集创建于2015年，由英国莱斯特大学和兰卡斯特大学共同开发。该数据集自创建以来，经历了多次更新，最近一次重大更新是在2019年，以适应社交媒体数据分析的新需求。

重要里程碑

PHEME数据集的重要里程碑之一是其首次公开发布，这标志着社交媒体谣言检测研究进入了一个新的阶段。2016年，PHEME数据集被广泛应用于多个国际会议和研讨会，成为谣言检测和分析的标准数据集之一。此外，2018年，PHEME数据集的扩展版本发布，增加了更多语言和地区的数据，进一步提升了其在全球范围内的应用价值。

当前发展情况

当前，PHEME数据集已成为社交媒体谣言检测领域的核心资源之一，广泛应用于学术研究和工业应用中。其丰富的数据内容和多样的语言支持，为研究人员提供了宝贵的实验材料，推动了谣言检测算法的发展和优化。同时，PHEME数据集的不断更新和扩展，也反映了社交媒体动态变化的特点，确保了其在相关领域的持续贡献和影响力。

发展历程

PHEME数据集首次发表，旨在研究社交媒体上的谣言传播。
2014年
PHEME数据集首次应用于谣言检测和分析研究，成为相关领域的重要基准数据集。
2015年
PHEME数据集扩展了其覆盖范围，增加了更多社交媒体平台和语言的数据。
2017年
PHEME数据集在多个国际会议上被广泛引用，成为谣言传播研究的标准数据集之一。
2019年
PHEME数据集进一步更新，增加了实时数据和多模态信息，以适应新兴研究需求。
2021年

常用场景

经典使用场景

在社交媒体信息传播研究领域，PHEME数据集以其丰富的谣言与非谣言事件数据而著称。该数据集收集了多个社交媒体平台上的谣言事件，涵盖了从事件发生到传播的完整生命周期。研究者常利用PHEME数据集进行谣言检测、传播路径分析以及用户行为模式研究，从而揭示社交媒体中信息传播的复杂机制。

解决学术问题

PHEME数据集为学术界提供了一个宝贵的资源，用以解决社交媒体中的谣言传播问题。通过分析该数据集，研究者能够深入探讨谣言的生成、传播及消退机制，进而提出有效的谣言检测和干预策略。此外，PHEME数据集还促进了跨学科研究，如社会网络分析、自然语言处理和机器学习，为理解社交媒体中的信息动态提供了新的视角。

衍生相关工作

基于PHEME数据集，研究者们开展了一系列经典工作。例如，有研究利用该数据集开发了基于深度学习的谣言检测模型，显著提升了谣言识别的准确率。此外，还有研究通过分析PHEME数据集中的用户交互数据，提出了新的社交网络传播模型，用以预测谣言的传播范围和速度。这些衍生工作不仅丰富了社交媒体研究的理论基础，也为实际应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

2000-2018年中国典型生态系统植物生长节律数据

该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据，包括木本植物、草本植物、水稻、小麦、玉米物候数据表，木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录；草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据；水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录；小麦数据表有9个台站不同生育期382条记录；玉米数据表有18个台站不同生育期532条数据。

地球大数据科学工程收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像，其中每个类被大致分成50-50。类别通常在品牌，型号，年份，例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录