GossipCop++ 和 PolitiFact++
收藏github2024-04-07 更新2024-05-31 收录
下载链接:
https://github.com/mbzuai-nlp/Fakenews-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于PolitiFact和GossipCop数据集,过滤掉了不包含标题或描述的新闻文章。原始的假新闻和真实新闻被用作研究中的HF和HR。
This dataset is based on the PolitiFact and GossipCop datasets, from which news articles lacking titles or descriptions have been filtered out. The original fake and real news articles are utilized as HF and HR in the research.
创建时间:
2024-04-07
原始信息汇总
数据集概述
数据集来源
- 该数据集基于FakeNewsNet中的politifact和gossipcop数据集创建。
- 过滤了不包含标题或描述的新闻文章。
数据集内容
- 原始的假新闻和真实新闻分别标记为HF和HR。
数据集发布
- 数据集包括GossipCop++和PolitiFact++,可在GitHub和HuggingFace上获取:
数据集统计
- GossipCop++:
- #HF: 4084
- #MF: 4084
- #HR: 8168
- #MR: 4169
- PolitiFact++:
- #HF: 97
- #MF: 97
- #HR: 194
- #MR: 132
引用信息
- Su, Jinyan, Claire Cardie, and Preslav Nakov. "Adapting Fake News Detection to the Era of Large Language Models." arXiv preprint arXiv:2311.04917 (2023).
- Su, Jinyan, Terry Yue Zhuo, Jonibek Mansurov, Di Wang, and Preslav Nakov. "Fake News Detectors are Biased against Texts Generated by Large Language Models." arXiv preprint arXiv:2309.08674 (2023).
- Shu, Kai, Deepak Mahudeswaran, Suhang Wang, Dongwon Lee, and Huan Liu. "FakeNewsNet: A Data Repository with News Content, Social Context and Dynamic Information for Studying Fake News on Social Media." arXiv preprint arXiv:1809.01286 (2018).
搜集汇总
数据集介绍

构建方式
GossipCop++ 和 PolitiFact++ 数据集的构建基于FakeNewsNet项目中的GossipCop和PolitiFact数据集,经过筛选剔除了不含标题或描述的新闻文章。原始的真实和虚假新闻分别被标记为HF和HR。此外,研究团队通过复杂提示技术生成新的虚假新闻文本,确保这些文本不易被简单识别,从而增强了数据集的复杂性和实用性。
特点
GossipCop++ 和 PolitiFact++ 数据集的显著特点在于其平衡性和多样性。数据集不仅包含了原始的真实和虚假新闻,还引入了通过大型语言模型生成的新型虚假新闻,这些新闻文本在结构和内容上更为复杂,难以通过简单的特征识别。此外,数据集的统计显示了其在不同类别上的均衡分布,为研究提供了丰富的数据支持。
使用方法
GossipCop++ 和 PolitiFact++ 数据集可用于多种假新闻检测研究,包括但不限于机器学习模型的训练与评估、特征分析以及对抗性攻击的模拟。研究者可以通过GitHub或HuggingFace平台获取数据集,并根据需要进行数据预处理和模型训练。数据集的多样性和复杂性使其成为探索假新闻检测技术前沿的理想选择。
背景与挑战
背景概述
在信息爆炸的时代,虚假新闻的传播对社会稳定构成了严峻挑战。GossipCop++ 和 PolitiFact++ 数据集应运而生,旨在应对这一问题。该数据集基于FakeNewsNet项目中的GossipCop和PolitiFact数据集,经过筛选剔除了缺乏标题或描述的新闻文章,以确保数据质量。主要研究人员包括Jinyan Su、Claire Cardie和Preslav Nakov,他们的研究聚焦于将虚假新闻检测适应于大规模语言模型时代,探讨了现有检测系统对由大型语言模型生成的文本的偏见。该数据集的发布不仅为相关领域的研究提供了宝贵的资源,也为未来虚假新闻检测技术的改进奠定了基础。
当前挑战
GossipCop++ 和 PolitiFact++ 数据集在构建过程中面临多项挑战。首先,如何从原始数据集中筛选出高质量的新闻文章,确保数据的有效性和代表性,是一个关键问题。其次,随着大规模语言模型的普及,生成的文本在特征上与真实新闻存在显著差异,这使得传统的虚假新闻检测方法面临新的挑战。此外,数据集的平衡性也是一个重要考量,如何在保持数据多样性的同时确保各类新闻的均衡分布,是构建过程中需要解决的难题。这些挑战不仅影响了数据集的质量,也对后续的虚假新闻检测研究提出了更高的要求。
常用场景
经典使用场景
GossipCop++ 和 PolitiFact++ 数据集在虚假新闻检测领域中具有经典应用场景。这两个数据集通过提供经过筛选的新闻文章,特别是包含标题和描述的文章,为研究人员提供了高质量的训练和测试数据。这些数据集特别适用于研究如何在大语言模型时代调整虚假新闻检测算法,尤其是在处理由大语言模型生成的文本时,如何避免检测算法的偏见。
解决学术问题
GossipCop++ 和 PolitiFact++ 数据集解决了虚假新闻检测领域中的多个关键学术问题。首先,它们帮助研究者理解并应对大语言模型生成文本对现有检测算法的挑战,揭示了这些算法在处理生成文本时的偏见。其次,通过提供平衡的数据集,它们促进了更公正和有效的虚假新闻检测模型的开发,这对于提升检测算法的鲁棒性和准确性具有重要意义。
衍生相关工作
GossipCop++ 和 PolitiFact++ 数据集的发布激发了大量相关研究工作。这些工作包括但不限于:改进虚假新闻检测算法的模型架构、探索大语言模型生成文本的特征、以及研究如何减少检测算法对生成文本的偏见。此外,这些数据集还促进了跨学科的研究,如结合社会学和心理学研究虚假新闻的传播机制,以及开发更智能的虚假新闻检测工具。
以上内容由遇见数据集搜集并总结生成



