FACTOID

github2022-12-20 更新2024-05-31 收录

下载链接：

https://github.com/caisa-lab/FACTOID-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

FACTOID是一个用户级别的真实性和政治偏见数据集，包含4,150个新闻传播用户的3.3M Reddit帖子，讨论当代政治话题，时间跨度为2020年1月至2021年4月。

FACTOID is a user-level dataset focusing on authenticity and political bias, encompassing 3.3 million Reddit posts from 4,150 news dissemination users. These posts discuss contemporary political topics, spanning from January 2020 to April 2021.

创建时间：

2022-04-19

原始信息汇总

数据集概述

FACTOID 是一个用户级别的 FACtuality 和 pOlitical bIas Dataset，包含4,150个新闻传播用户在2020年1月至2021年4月期间发布的3.3M篇Reddit帖子，涉及当代政治话题。数据集可在此处获取：FACTOID数据集。

数据集使用

3.1 Reddit帖子爬取

使用数据集提供的ID爬取Reddit帖子，填充数据框中的空字符串。

3.2 用户嵌入

首先提取用户词汇：

python create_vocabs_per_month.py --base_dataset=../data/reddit_dataset/factoid_dataset.gzip
然后生成嵌入：
- UBERT嵌入：
  
  python user_embeddings_per_month.py --vocabs_dir=../data/user_vocabs_per_month --base_dataset=../data/reddit_dataset/factoid_dataset.gzip
- User2Vec
- 心理语言学特征

3.3 生成图和样本

生成图样本的示例脚本，根据所需的嵌入类型调整参数。embed_type 参数可选值为 [bert, usr2vec, usr2vec_rand, usr2vec_liwc, liwc]。

python source_graph_generation.py --gen_source_graphs=True --path=../data/reddit_dataset/linguistic/cosine/avg/bert_embeddings/ --base_dataset=../data/reddit_dataset/factoid_dataset.gzip --doc_embedding_file_path=../data/embeddings/bert/ --embed_type=bert --merge_liwc=false --dim=768 --embed_mode=avg |& tee ../logs/graph_generation.txt
创建图样本后，进行数据分割：

python model_dataloader.py --n_users=200 --n_train_samples=1000 --n_val_samples=200 --base_dataset=../data/reddit_dataset/factoid_dataset.gzip --source_frames=../data/reddit_dataset/linguistic/cosine/avg/bert_embeddings/source --sample_dir=../data/reddit_dataset/model_samples_avg/bert_embeddings/ --user_ids=../data/reddit_dataset/user_splits/ --threshold=0.8 |& tee ../logs/model_dataloader.txt

3.4 模型训练

创建训练、验证和测试样本后，运行模型：

python training_graph.py --patience=40 --run_id=bert_embeddings --sample_dir=../data/reddit_dataset/model_samples_avg/bert_embeddings/ --result_dir=../results/ --checkpoint_dir=../results/checkpoints/ --max_epochs=50 --learning_rate=5e-5 --nheads=4 --dropout=0.2 --nhid_graph=256 --nhid=128 --users_dim=768 --gnn=gat |& tee ../logs/graph_model_main.txt

搜集汇总

数据集介绍

构建方式

FACTOID数据集的构建基于2020年1月至2021年4月期间Reddit平台上4150名用户的330万条政治话题讨论帖子。通过爬取这些用户的发帖内容，数据集进一步整合了用户级别的词汇、嵌入特征以及心理语言学特征。数据集的构建过程包括用户词汇提取、嵌入生成（如UBERT和User2Vec）以及图结构生成，最终形成了一个多层次、多维度的用户行为分析框架。

特点

FACTOID数据集的特点在于其全面覆盖了用户级别的政治讨论行为，不仅包含大量的文本数据，还通过嵌入技术生成了用户行为的向量表示。此外，数据集还整合了心理语言学特征，能够深入分析用户在政治讨论中的语言风格和心理倾向。这种多维度的数据整合使得FACTOID成为研究虚假信息传播者和政治偏见的有力工具。

使用方法

使用FACTOID数据集时，首先需通过提供的脚本爬取Reddit帖子并填充数据框中的缺失值。随后，用户可以通过提取词汇、生成嵌入特征（如UBERT和User2Vec）以及构建图结构来进一步分析用户行为。数据集还提供了训练、验证和测试样本的生成脚本，用户可以根据需要调整参数并训练模型。最终，通过训练图神经网络模型，用户可以对虚假信息传播者和政治偏见进行深入分析。

背景与挑战

背景概述

FACTOID数据集由研究人员于2020年至2021年间创建，旨在识别社交媒体上的虚假信息传播者及其政治倾向。该数据集包含4,150名新闻传播用户的3.3百万条Reddit帖子，涵盖了2020年1月至2021年4月期间的讨论内容。主要研究人员和机构通过分析这些数据，探讨了用户在传播新闻时的真实性及其政治偏见。FACTOID的发布为研究虚假信息传播机制、政治偏见检测以及社交媒体行为分析提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

FACTOID数据集在解决虚假信息传播者识别和政治偏见检测问题时，面临多重挑战。首先，虚假信息的定义和识别标准在学术界尚未统一，导致数据标注和模型训练存在困难。其次，政治偏见的量化与分类需要复杂的语言学和社会学分析，增加了数据处理和特征提取的难度。在构建过程中，研究人员还需应对Reddit平台数据的动态性和多样性，确保数据集的代表性和时效性。此外，用户隐私保护和数据匿名化处理也是构建过程中不可忽视的挑战。

常用场景

经典使用场景

FACTOID数据集在社交媒体分析领域具有重要应用，尤其是在识别虚假信息传播者和政治偏见方面。该数据集通过分析用户在Reddit平台上的大量政治讨论帖子，帮助研究者深入理解用户行为模式及其背后的意识形态倾向。这种分析不仅限于学术研究，也为社交媒体平台提供了识别和遏制虚假信息传播的工具。

衍生相关工作

基于FACTOID数据集，研究者们已经开发了多种先进的用户行为分析模型，如UBERT和User2Vec等。这些模型不仅提高了对用户政治倾向的识别精度，还推动了社交媒体分析技术的发展。此外，该数据集还激发了关于网络心理学和语言学特征在社交媒体行为分析中应用的新研究。

数据集最近研究