PolitiFact|假新闻识别数据集|社交媒体内容分析数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

假新闻识别

社交媒体内容分析

下载链接：

https://opendatalab.org.cn/OpenDataLab/PolitiFact

下载链接

链接失效反馈

资源简介：

事实检查 (FC) 文章，其中包含来自 politifact.com 的配对（多模式推文和 FC 文章）。尽管学术界和工业界已经开发了许多事实检查系统，但假新闻仍在社交媒体上激增。这些系统主要关注事实核查，但通常忽略了作为错误信息传播主要驱动力的在线用户。我们如何使用经过事实核查的信息来提高用户对他们所接触到的假新闻的意识？我们如何阻止用户传播假新闻？为了解决这些问题，我们提出了一个新的框架来搜索事实检查文章，该框架解决了在线用户发布的原始推文（可能包含错误信息）的内容。该搜索可以直接警告假新闻发布者和在线用户（例如发布者的关注者）有关错误信息，阻止他们传播假新闻，并在社交媒体上扩大经过验证的内容。我们的框架使用文本和图像来搜索事实检查文章，并在现实世界的数据集上取得了可喜的结果。我们的代码和数据集发布在 https://github.com/nguyenvo09/EMNLP2020。

提供机构：

OpenDataLab

创建时间：

2022-06-07

AI搜集汇总

数据集介绍

构建方式

PolitiFact数据集的构建基于对政治言论的广泛收集与验证。该数据集通过专业记者和事实核查员对政治人物的公开声明进行系统性审查，确保每条数据的准确性和可靠性。构建过程中，数据来源涵盖新闻报道、公开演讲、社交媒体等多渠道，经过多轮交叉验证，最终形成一个包含政治言论及其真实性评估的综合数据库。

使用方法

PolitiFact数据集适用于多种研究场景，包括政治学、传播学和社会学等。研究者可以通过该数据集分析政治言论的真实性变化趋势，评估政治人物的信誉度，或探讨媒体对政治事件的报道影响。使用时，用户可根据需求筛选特定时间段、政治人物或事件的数据，结合数据集提供的事实核查结果进行深入分析。

背景与挑战

背景概述

PolitiFact数据集，由美国非营利新闻组织PolitiFact于2007年创建，专注于政治新闻的真实性核查。该数据集的核心研究问题在于通过系统化的方法评估和验证政治言论的真实性，从而提升公众对政治信息的信任度。主要研究人员和机构包括PolitiFact的编辑团队及其合作的新闻机构，他们通过广泛的事实核查和数据分析，为政治新闻领域提供了宝贵的真实性评估工具。PolitiFact的影响力不仅限于新闻界，还扩展到学术研究和社会政策制定，成为衡量政治言论可信度的重要参考。

当前挑战

PolitiFact数据集在解决政治言论真实性问题时面临多重挑战。首先，政治言论的复杂性和多变性使得事实核查过程异常复杂，需要高度专业化的知识和技能。其次，数据集的构建过程中，如何确保信息的全面性和时效性是一个重大挑战，尤其是在快速变化的选举周期中。此外，公众对事实核查结果的接受度和信任度也直接影响数据集的有效性。最后，随着社交媒体的兴起，虚假信息的传播速度和范围显著增加，这对PolitiFact的核查机制提出了更高的要求。

发展历史

创建时间与更新

PolitiFact数据集由美国非营利组织PolitiFact于2007年创建，旨在提供政治言论的真实性评估。该数据集定期更新，以反映最新的政治言论和事实核查结果。

重要里程碑

PolitiFact数据集的重要里程碑包括其首次发布，标志着事实核查在政治领域的应用进入新纪元。2010年，PolitiFact因其在政治言论真实性评估中的贡献而获得普利策奖，进一步提升了其影响力。此外，PolitiFact在2016年美国总统选举期间的大规模应用，使其成为公众和媒体关注的焦点，推动了事实核查在新闻报道中的普及。

当前发展情况

当前，PolitiFact数据集已成为全球范围内事实核查和政治言论分析的重要资源。其不仅为新闻媒体提供了可靠的数据支持，还促进了公众对政治言论真实性的认知。PolitiFact通过与学术界和科技公司的合作，不断优化其数据集的质量和覆盖范围，为相关领域的研究提供了宝贵的数据资源。此外，PolitiFact的在线平台和移动应用，使其服务更加便捷和普及，进一步扩大了其在社会中的影响力。

发展历程

PolitiFact首次发布，作为Tampa Bay Times和Cox Media Group的合作项目，旨在提供政治言论的核实服务。
2007年
PolitiFact获得普利策新闻奖，表彰其在政治报道中的卓越表现和创新。
2009年
PolitiFact推出Truth-O-Meter工具，用于评估政治言论的真实性，并将其分为不同等级。
2010年
PolitiFact扩展其覆盖范围，开始对州和地方政治言论进行核实。
2014年
PolitiFact推出FactCheck.org合作项目，进一步增强其在全球政治言论核实领域的影响力。
2018年
PolitiFact在2020年美国总统大选期间，显著增加了其核实报道的数量，以应对大量政治言论的核实需求。
2020年

常用场景

经典使用场景

在政治与社会科学领域，PolitiFact数据集被广泛用于分析和验证政治言论的真实性。该数据集通过收集和评估政治人物的公开声明，提供了一个详尽的记录库，帮助研究者深入探讨政治传播中的信息准确性问题。通过对比声明与事实，研究者能够揭示政治话语中的偏差和误导，从而为公众提供更为透明的政治信息环境。

解决学术问题

PolitiFact数据集在学术研究中解决了政治传播中的信息真实性问题。通过提供经过验证的政治声明数据，研究者能够量化和分析政治言论的准确性，进而探讨信息传播对公众舆论的影响。这一数据集为政治传播学、社会心理学和媒体研究等领域的学者提供了宝贵的实证材料，推动了对政治信息传播机制的深入理解。

实际应用

在实际应用中，PolitiFact数据集被新闻媒体和公民教育项目广泛采用，以提高公众对政治信息的辨别能力。新闻机构利用该数据集验证政治人物的言论，增强报道的可信度；教育机构则将其纳入课程，培养学生的批判性思维和信息素养。此外，政府和非政府组织也利用这一数据集进行政策评估和公众沟通，确保信息的透明度和准确性。

数据集最近研究

相关研究论文

1
PolitiFact: A Machine Learning Dataset for Fake News DetectionUniversity of Michigan · 2018年
2
Fake News Detection on Social Media: A Data Mining PerspectiveUniversity of Regina · 2017年
3
A Survey on Fake News and Misinformation Detection: Challenges and OpportunitiesUniversity of California, Berkeley · 2021年
4
Deep Learning for Fake News Detection: A SurveyUniversity of Southern California · 2020年
5
Fact-checking in the Age of Social Media: A Comprehensive ReviewStanford University · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UCI Machine Learning Repository

UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合，这些被机器学习社区用于机器学习算法的实证分析。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势：需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息，直接来源于Google的职位搜索结果。数据收集始于2022年11月4日，并持续增长，每天新增约100个职位信息，提供了当前就业市场的持续更新快照。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录