FACTOID
收藏数据集概述
FACTOID 是一个用户级别的 FACtuality 和 pOlitical bIas Dataset,包含4,150个新闻传播用户在2020年1月至2021年4月期间发布的3.3M篇Reddit帖子,涉及当代政治话题。数据集可在此处获取:FACTOID数据集。
数据集使用
3.1 Reddit帖子爬取
- 使用数据集提供的ID爬取Reddit帖子,填充数据框中的空字符串。
3.2 用户嵌入
-
首先提取用户词汇:
python create_vocabs_per_month.py --base_dataset=../data/reddit_dataset/factoid_dataset.gzip
-
然后生成嵌入:
3.3 生成图和样本
-
生成图样本的示例脚本,根据所需的嵌入类型调整参数。
embed_type参数可选值为[bert, usr2vec, usr2vec_rand, usr2vec_liwc, liwc]。python source_graph_generation.py --gen_source_graphs=True --path=../data/reddit_dataset/linguistic/cosine/avg/bert_embeddings/ --base_dataset=../data/reddit_dataset/factoid_dataset.gzip --doc_embedding_file_path=../data/embeddings/bert/ --embed_type=bert --merge_liwc=false --dim=768 --embed_mode=avg |& tee ../logs/graph_generation.txt
-
创建图样本后,进行数据分割:
python model_dataloader.py --n_users=200 --n_train_samples=1000 --n_val_samples=200 --base_dataset=../data/reddit_dataset/factoid_dataset.gzip --source_frames=../data/reddit_dataset/linguistic/cosine/avg/bert_embeddings/source --sample_dir=../data/reddit_dataset/model_samples_avg/bert_embeddings/ --user_ids=../data/reddit_dataset/user_splits/ --threshold=0.8 |& tee ../logs/model_dataloader.txt
3.4 模型训练
-
创建训练、验证和测试样本后,运行模型:
python training_graph.py --patience=40 --run_id=bert_embeddings --sample_dir=../data/reddit_dataset/model_samples_avg/bert_embeddings/ --result_dir=../results/ --checkpoint_dir=../results/checkpoints/ --max_epochs=50 --learning_rate=5e-5 --nheads=4 --dropout=0.2 --nhid_graph=256 --nhid=128 --users_dim=768 --gnn=gat |& tee ../logs/graph_model_main.txt




