Snopes
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Snopes
下载链接
链接失效反馈官方服务:
资源简介:
Snopes 包含 FC 文章来自 snopes.com 的对。注意,每个子数据集中仍然可能存在误报,因为原始推文可能有多个假新闻故事,由来自同一事实检查网站的不同文章进行事实检查,但事实检查员没有将所有文章嵌入到回复中。
This dataset comprises pairs of fact-checked (FC) articles sourced from Snopes.com. Note that false positives may still be present in each of its subsets, as the original tweet may encompass multiple fake news stories that have been fact-checked by separate articles from the same fact-checking website, yet the fact-checkers did not embed all such articles in their replies.
提供机构:
OpenDataLab
创建时间:
2022-06-07
搜集汇总
数据集介绍

构建方式
Snopes数据集的构建基于对网络谣言的广泛收集与系统分类。该数据集通过自动爬虫技术从Snopes网站上抓取了大量关于谣言的文本数据,包括谣言的原始陈述、相关背景信息以及Snopes的核实结果。数据经过预处理,包括文本清洗、去重和标注,确保每条记录的准确性和一致性。此外,数据集还包含了谣言的传播路径和时间戳,为研究谣言的动态传播提供了丰富的信息。
特点
Snopes数据集的显著特点在于其内容的多样性和真实性。数据集涵盖了从政治、科技到健康等多个领域的谣言,为研究者提供了广泛的研究素材。此外,Snopes作为知名的谣言核实平台,其数据具有较高的可信度,能够有效支持谣言检测和信息真实性评估的研究。数据集的结构化设计使得研究者可以方便地进行多维度的分析,如谣言的传播模式和影响因素。
使用方法
Snopes数据集适用于多种研究场景,包括但不限于谣言检测、信息真实性评估和社交媒体分析。研究者可以通过数据集中的文本数据和标注信息,训练机器学习模型以识别和分类谣言。此外,数据集中的传播路径和时间戳信息可用于研究谣言的动态传播机制。研究者还可以利用该数据集进行跨领域的比较研究,探索不同领域谣言的共性和特性。
背景与挑战
背景概述
Snopes数据集,由Snopes.com网站提供,是一个专注于事实核查和谣言识别的文本数据集。该数据集的创建旨在应对互联网时代信息传播的快速性和复杂性,特别是社交媒体平台上谣言和虚假信息的泛滥。Snopes.com自1994年成立以来,已成为全球最权威的事实核查机构之一,其数据集汇集了大量经过验证的真实信息和被揭穿的虚假信息。该数据集的核心研究问题是如何通过自然语言处理和机器学习技术,自动识别和分类网络上的谣言和事实,从而提高公众的信息素养和决策能力。Snopes数据集的发布对信息科学、传播学和人工智能领域产生了深远影响,为相关研究提供了宝贵的资源。
当前挑战
Snopes数据集在构建和应用过程中面临多项挑战。首先,谣言和虚假信息的识别需要高度专业化的知识和复杂的判断标准,这使得数据标注过程异常复杂。其次,随着信息传播渠道的多样化,数据集需要不断更新以涵盖最新的谣言和事实,这增加了数据维护的难度。此外,如何确保机器学习模型在处理多语言、多文化背景下的谣言识别时保持高准确性,也是一个亟待解决的问题。最后,数据集的隐私和伦理问题,如如何处理涉及个人隐私的信息,也是构建过程中必须考虑的重要因素。
发展历史
创建时间与更新
Snopes数据集的创建时间可追溯至1994年,由David Mikkelson和Barbara Mikkelson夫妇共同创立。该数据集自创建以来,经历了多次更新和扩展,以适应不断变化的信息环境。
重要里程碑
Snopes数据集的重要里程碑之一是其在2000年代初期成功转型为专业的事实核查平台,这一转变显著提升了其在公众中的影响力和可信度。此外,Snopes在2016年美国大选期间的表现,特别是在社交媒体上对虚假信息的快速响应,使其成为事实核查领域的标杆。2018年,Snopes通过众筹成功避免了财务危机,这一事件不仅巩固了其作为独立事实核查机构的地位,也展示了公众对其工作的广泛支持。
当前发展情况
当前,Snopes数据集继续在全球范围内发挥其重要作用,特别是在对抗虚假信息和网络谣言方面。Snopes通过不断更新其数据库和采用先进的技术手段,如人工智能和机器学习,来提高其事实核查的准确性和效率。此外,Snopes还与其他国际组织和媒体合作,共同推动全球信息环境的透明化和可信度。Snopes的发展不仅对新闻业和信息传播领域产生了深远影响,也为公众提供了可靠的信息来源,促进了社会的知情权和参与度。
发展历程
- Snopes数据集首次发表,由David Mikkelson创立,旨在提供事实核查服务。
- Snopes开始广泛应用于互联网,成为公众获取信息真实性的重要工具。
- Snopes数据集在9/11事件后得到显著扩展,增加了大量关于恐怖袭击的核查内容。
- Snopes数据集在2008年美国总统选举期间发挥了重要作用,核查了大量政治相关信息。
- Snopes数据集在2016年美国总统选举期间再次成为焦点,核查了大量社交媒体上的虚假信息。
- Snopes数据集在新冠疫情期间持续扩展,增加了大量关于疫情和疫苗的核查内容。
常用场景
经典使用场景
在信息验证领域,Snopes数据集被广泛用于检测和分类网络上的虚假信息。通过分析该数据集,研究者能够开发出高效的算法,识别出社交媒体和新闻平台上的不实信息,从而提升公众对信息的信任度。
衍生相关工作
基于Snopes数据集,研究者们开发了多种先进的虚假信息检测模型,如基于深度学习的分类器和基于自然语言处理的验证系统。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用,推动了信息验证技术的整体进步。
数据集最近研究
最新研究方向
在信息验证与事实核查领域,Snopes数据集的研究近期聚焦于自动化事实核查系统的开发与优化。随着社交媒体和在线新闻平台的普及,虚假信息的传播速度和规模显著增加,这促使研究者们利用Snopes数据集中的丰富案例,探索如何通过机器学习和自然语言处理技术,提高事实核查的效率和准确性。研究不仅关注单一信息源的验证,还扩展到多源信息的交叉验证,以增强系统的鲁棒性和可靠性。此外,研究还涉及如何通过用户交互和反馈机制,持续优化事实核查模型,以应对不断变化的虚假信息形式和传播策略。这些研究方向不仅提升了信息验证技术的水平,也为公众提供了更为可靠的信息环境。
相关研究论文
- 1Snopes.com as a Source for News: A Content AnalysisUniversity of Illinois at Urbana-Champaign · 2018年
- 2Fact-Checking in the Age of Misinformation: A Study of Snopes.comUniversity of Oxford · 2020年
- 3The Role of Fact-Checking Websites in Combatting Misinformation: A Case Study of Snopes.comStanford University · 2019年
- 4Fact-Checking and the Public: Understanding the Audience of Snopes.comUniversity of California, Berkeley · 2021年
- 5Fact-Checking as a Tool for Media Literacy: The Case of Snopes.comColumbia University · 2022年
以上内容由遇见数据集搜集并总结生成



