PHEME

Name: PHEME
Creator: figshare.com
License: 暂无描述

figshare.com2024-11-02 收录

下载链接：

https://figshare.com/articles/dataset/PHEME_dataset_of_rumours_and_non-rumours/4010619

下载链接

链接失效反馈

官方服务：

资源简介：

PHEME数据集是一个用于研究社交媒体上谣言传播的公开数据集。它包含了多个事件的Twitter数据，每个事件都有相关的谣言和非谣言信息。数据集的目的是帮助研究人员分析和理解社交媒体上的信息传播模式，特别是谣言的产生和扩散过程。

The PHEME dataset is a public dataset for researching rumor propagation on social media. It contains Twitter data for multiple events, with each event having associated rumor and non-rumor information. The dataset aims to assist researchers in analyzing and understanding information propagation patterns on social media, particularly the generation and diffusion processes of rumors.

提供机构：

figshare.com

搜集汇总

数据集介绍

构建方式

PHEME数据集的构建基于对社交媒体平台上谣言传播的深入分析。该数据集通过自动抓取和人工验证相结合的方式，收集了大量关于特定事件的推文和评论。数据经过多轮筛选和标注，确保了信息的准确性和可靠性。此外，数据集还包含了用户互动数据，如转发、点赞和评论，以全面反映谣言在社交网络中的传播路径和影响。

特点

PHEME数据集的显著特点在于其多维度的信息结构和高质量的标注。数据集不仅涵盖了谣言的文本内容，还包括了与之相关的用户行为和社交网络结构。这种多层次的数据结构使得研究者能够从多个角度分析谣言的传播机制。此外，数据集的标注采用了多专家共识的方法，确保了标注的一致性和准确性。

使用方法

PHEME数据集适用于多种研究场景，包括但不限于谣言检测、信息传播模型构建和社交网络分析。研究者可以通过数据集中的文本数据进行自然语言处理，识别谣言的特征和模式。同时，用户互动数据可以用于构建和验证社交网络模型，分析谣言在网络中的传播路径。此外，数据集的高质量标注为机器学习算法的训练提供了可靠的基础。

背景与挑战

背景概述

PHEME数据集，由英国南安普顿大学于2015年创建，主要研究人员包括Arkaitz Zubiaga和Maria Liakata等。该数据集专注于社交媒体上的谣言检测与分析，收集了Twitter上关于多个突发事件的推文及其相关信息。PHEME的核心研究问题是如何在社交媒体环境中自动识别和验证谣言，这对于危机管理和公众信息传播具有重要意义。PHEME的发布极大地推动了社交媒体分析领域的发展，为研究人员提供了丰富的数据资源，促进了谣言检测技术的进步。

当前挑战

PHEME数据集在构建和应用过程中面临多重挑战。首先，社交媒体数据的实时性和动态性使得谣言的识别和验证变得复杂，需要高效的算法和模型来处理海量数据。其次，谣言的多样性和传播路径的复杂性增加了数据分析的难度，要求研究者开发更加精细的分类和追踪方法。此外，数据集的构建过程中还需应对隐私保护和数据伦理问题，确保收集和使用数据的过程符合相关法律法规。这些挑战共同构成了PHEME数据集研究的重要课题。

发展历史

创建时间与更新

PHEME数据集创建于2015年，由英国莱斯特大学和兰卡斯特大学共同开发。该数据集自创建以来，经历了多次更新，最近一次重大更新是在2019年，以适应社交媒体数据分析的新需求。

重要里程碑

PHEME数据集的重要里程碑之一是其首次公开发布，这标志着社交媒体谣言检测研究进入了一个新的阶段。2016年，PHEME数据集被广泛应用于多个国际会议和研讨会，成为谣言检测和分析的标准数据集之一。此外，2018年，PHEME数据集的扩展版本发布，增加了更多语言和地区的数据，进一步提升了其在全球范围内的应用价值。

当前发展情况

当前，PHEME数据集已成为社交媒体谣言检测领域的核心资源之一，广泛应用于学术研究和工业应用中。其丰富的数据内容和多样的语言支持，为研究人员提供了宝贵的实验材料，推动了谣言检测算法的发展和优化。同时，PHEME数据集的不断更新和扩展，也反映了社交媒体动态变化的特点，确保了其在相关领域的持续贡献和影响力。

发展历程

PHEME数据集首次发表，旨在研究社交媒体上的谣言传播。
2014年
PHEME数据集首次应用于谣言检测和分析研究，成为相关领域的重要基准数据集。
2015年
PHEME数据集扩展了其覆盖范围，增加了更多社交媒体平台和语言的数据。
2017年
PHEME数据集在多个国际会议上被广泛引用，成为谣言传播研究的标准数据集之一。
2019年
PHEME数据集进一步更新，增加了实时数据和多模态信息，以适应新兴研究需求。
2021年

常用场景

经典使用场景

在社交媒体信息传播研究领域，PHEME数据集以其丰富的谣言与非谣言事件数据而著称。该数据集收集了多个社交媒体平台上的谣言事件，涵盖了从事件发生到传播的完整生命周期。研究者常利用PHEME数据集进行谣言检测、传播路径分析以及用户行为模式研究，从而揭示社交媒体中信息传播的复杂机制。

解决学术问题

PHEME数据集为学术界提供了一个宝贵的资源，用以解决社交媒体中的谣言传播问题。通过分析该数据集，研究者能够深入探讨谣言的生成、传播及消退机制，进而提出有效的谣言检测和干预策略。此外，PHEME数据集还促进了跨学科研究，如社会网络分析、自然语言处理和机器学习，为理解社交媒体中的信息动态提供了新的视角。

衍生相关工作

基于PHEME数据集，研究者们开展了一系列经典工作。例如，有研究利用该数据集开发了基于深度学习的谣言检测模型，显著提升了谣言识别的准确率。此外，还有研究通过分析PHEME数据集中的用户交互数据，提出了新的社交网络传播模型，用以预测谣言的传播范围和速度。这些衍生工作不仅丰富了社交媒体研究的理论基础，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集