Twitter Dataset, Weibo Dataset

github2021-12-15 更新2024-05-31 收录

下载链接：

https://github.com/ICTMCG/MTM

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含两个实验数据集：Twitter数据集和首次提出的Weibo数据集。Weibo数据集需提交使用申请后方可下载。

This repository contains two experimental datasets: the Twitter dataset and the newly proposed Weibo dataset. The Weibo dataset requires a submission of a usage application before it can be downloaded.

创建时间：

2021-05-30

原始信息汇总

数据集概述

数据集名称

Twitter Dataset
Weibo Dataset

数据集描述

Twitter Dataset: 包含在Twitter平台上的数据，用于实验研究。详细描述可在此处查看。
Weibo Dataset: 包含在微博平台上的数据，是首次提出的数据集。用户需提交"Application to Use the Chinese Dataset for Detecting Previously Fact-Checked Claim"后才能下载。

数据集使用方法

Weibo Dataset:
- 下载后，将FN_11934_filtered.json和DN_27505_filtered.json移动到MTM/dataset/Weibo/raw目录下。
- 进行数据预处理，包括Tokenize、ROT和PMB步骤。
- 进行模型训练和推理，结果将保存在ckpts/Weibo目录下。
Twitter Dataset:
- 进行数据预处理，包括Tokenize、ROT和PMB步骤。
- 进行模型训练和推理，结果将保存在ckpts/Twitter目录下。

数据集预处理步骤

Tokenize: 使用脚本run_weibo.sh或run_twitter.sh进行文本分词。
ROT: 准备训练数据，进行模型训练，获取嵌入向量。
PMB: 准备聚类数据，进行Kmeans聚类，获取聚类中心。

模型训练和推理

使用提供的脚本和参数进行模型训练和推理，结果将根据数据集分别保存在ckpts/Weibo或ckpts/Twitter目录下。

搜集汇总

数据集介绍

构建方式

Twitter Dataset和Weibo Dataset的构建基于社交媒体平台上的公开数据，旨在支持检测已被事实核查的声明。Weibo Dataset的获取需通过提交申请，确保数据使用的合规性。数据集的构建过程包括从Twitter和微博平台收集相关声明和文章，经过筛选和过滤，最终形成结构化的数据集。这些数据经过预处理，包括分词、向量化等步骤，以便于后续的模型训练和评估。

特点

该数据集的特点在于其专注于社交媒体上的事实核查声明，涵盖了广泛的主题和语言风格。Weibo Dataset作为首个针对中文社交媒体的事实核查数据集，具有独特的中文语言特性。数据集中的声明和文章经过精心筛选，确保了数据的质量和相关性。此外，数据集还提供了丰富的元数据，如声明的时间戳、来源等，为研究提供了多维度的分析视角。

使用方法

使用该数据集时，首先需下载并解压数据文件，随后通过预定义的脚本进行数据预处理，包括分词、向量化等步骤。接着，用户可以利用提供的代码进行模型训练和推理，具体步骤包括准备训练数据、训练RougeBert模型、获取嵌入向量以及进行K-means聚类。训练完成后，用户可以通过运行模型脚本进行推理，生成排名报告。整个过程依赖于Python环境和特定的深度学习库，如PyTorch和Transformers。

背景与挑战

背景概述

Twitter Dataset和Weibo Dataset是由Qiang Sheng、Juan Cao、Xueyao Zhang、Xirong Li和Lei Zhong等研究人员在2021年提出的，旨在解决社交媒体中虚假信息检测的核心问题。该数据集首次在ACL-IJCNLP 2021会议上发布，主要用于支持基于记忆增强的关键句子匹配技术，以检测已被事实核查的声明。通过结合Twitter和Weibo两大社交平台的数据，研究人员能够更全面地分析不同语言和文化背景下的虚假信息传播模式。该数据集的发布为自然语言处理领域提供了重要的实验基础，推动了虚假信息检测技术的发展。

当前挑战

Twitter Dataset和Weibo Dataset在构建和应用过程中面临多重挑战。首先，虚假信息检测本身具有高度复杂性，尤其是在多语言和多文化背景下，如何准确识别和匹配关键句子成为一大难题。其次，数据集的构建需要处理海量的社交媒体数据，如何有效过滤噪声数据并确保数据的代表性和多样性是另一大挑战。此外，由于Weibo数据集涉及中文内容，其访问权限受到严格限制，用户需提交申请才能获取数据，这在一定程度上限制了数据集的广泛使用。最后，数据集的预处理和模型训练过程对计算资源要求较高，如何优化算法以提高效率也是研究人员需要克服的难题。

常用场景

经典使用场景

Twitter Dataset和Weibo Dataset在自然语言处理领域中被广泛应用于检测先前经过事实核查的声明。这些数据集通过提供大量的社交媒体文本数据，帮助研究者训练和验证模型，以识别和匹配关键句子，从而提升事实核查的效率和准确性。特别是在多语言环境下，这些数据集为跨语言的事实核查任务提供了宝贵的数据支持。

实际应用

在实际应用中，Twitter Dataset和Weibo Dataset被广泛用于构建自动化事实核查系统。这些系统能够实时监测社交媒体上的信息流，快速识别潜在的虚假信息，并提供相应的核查结果。此外，这些数据集还被用于开发多语言事实核查工具，帮助不同语言背景的用户获取可靠的信息。

衍生相关工作

基于Twitter Dataset和Weibo Dataset，研究者们开发了一系列相关的工作，包括基于BERT的文本匹配模型、基于聚类的关键句子提取方法等。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用，推动了自然语言处理技术在事实核查领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集