five

PolitiFact|假新闻识别数据集|社交媒体内容分析数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
假新闻识别
社交媒体内容分析
下载链接:
https://opendatalab.org.cn/OpenDataLab/PolitiFact
下载链接
链接失效反馈
资源简介:
事实检查 (FC) 文章,其中包含来自 politifact.com 的配对(多模式推文和 FC 文章)。尽管学术界和工业界已经开发了许多事实检查系统,但假新闻仍在社交媒体上激增。这些系统主要关注事实核查,但通常忽略了作为错误信息传播主要驱动力的在线用户。我们如何使用经过事实核查的信息来提高用户对他们所接触到的假新闻的意识?我们如何阻止用户传播假新闻?为了解决这些问题,我们提出了一个新的框架来搜索事实检查文章,该框架解决了在线用户发布的原始推文(可能包含错误信息)的内容。该搜索可以直接警告假新闻发布者和在线用户(例如发布者的关注者)有关错误信息,阻止他们传播假新闻,并在社交媒体上扩大经过验证的内容。我们的框架使用文本和图像来搜索事实检查文章,并在现实世界的数据集上取得了可喜的结果。我们的代码和数据集发布在 https://github.com/nguyenvo09/EMNLP2020。
提供机构:
OpenDataLab
创建时间:
2022-06-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
PolitiFact数据集的构建基于对政治言论的广泛收集与验证。该数据集通过专业记者和事实核查员对政治人物的公开声明进行系统性审查,确保每条数据的准确性和可靠性。构建过程中,数据来源涵盖新闻报道、公开演讲、社交媒体等多渠道,经过多轮交叉验证,最终形成一个包含政治言论及其真实性评估的综合数据库。
使用方法
PolitiFact数据集适用于多种研究场景,包括政治学、传播学和社会学等。研究者可以通过该数据集分析政治言论的真实性变化趋势,评估政治人物的信誉度,或探讨媒体对政治事件的报道影响。使用时,用户可根据需求筛选特定时间段、政治人物或事件的数据,结合数据集提供的事实核查结果进行深入分析。
背景与挑战
背景概述
PolitiFact数据集,由美国非营利新闻组织PolitiFact于2007年创建,专注于政治新闻的真实性核查。该数据集的核心研究问题在于通过系统化的方法评估和验证政治言论的真实性,从而提升公众对政治信息的信任度。主要研究人员和机构包括PolitiFact的编辑团队及其合作的新闻机构,他们通过广泛的事实核查和数据分析,为政治新闻领域提供了宝贵的真实性评估工具。PolitiFact的影响力不仅限于新闻界,还扩展到学术研究和社会政策制定,成为衡量政治言论可信度的重要参考。
当前挑战
PolitiFact数据集在解决政治言论真实性问题时面临多重挑战。首先,政治言论的复杂性和多变性使得事实核查过程异常复杂,需要高度专业化的知识和技能。其次,数据集的构建过程中,如何确保信息的全面性和时效性是一个重大挑战,尤其是在快速变化的选举周期中。此外,公众对事实核查结果的接受度和信任度也直接影响数据集的有效性。最后,随着社交媒体的兴起,虚假信息的传播速度和范围显著增加,这对PolitiFact的核查机制提出了更高的要求。
发展历史
创建时间与更新
PolitiFact数据集由美国非营利组织PolitiFact于2007年创建,旨在提供政治言论的真实性评估。该数据集定期更新,以反映最新的政治言论和事实核查结果。
重要里程碑
PolitiFact数据集的重要里程碑包括其首次发布,标志着事实核查在政治领域的应用进入新纪元。2010年,PolitiFact因其在政治言论真实性评估中的贡献而获得普利策奖,进一步提升了其影响力。此外,PolitiFact在2016年美国总统选举期间的大规模应用,使其成为公众和媒体关注的焦点,推动了事实核查在新闻报道中的普及。
当前发展情况
当前,PolitiFact数据集已成为全球范围内事实核查和政治言论分析的重要资源。其不仅为新闻媒体提供了可靠的数据支持,还促进了公众对政治言论真实性的认知。PolitiFact通过与学术界和科技公司的合作,不断优化其数据集的质量和覆盖范围,为相关领域的研究提供了宝贵的数据资源。此外,PolitiFact的在线平台和移动应用,使其服务更加便捷和普及,进一步扩大了其在社会中的影响力。
发展历程
  • PolitiFact首次发布,作为Tampa Bay Times和Cox Media Group的合作项目,旨在提供政治言论的核实服务。
    2007年
  • PolitiFact获得普利策新闻奖,表彰其在政治报道中的卓越表现和创新。
    2009年
  • PolitiFact推出Truth-O-Meter工具,用于评估政治言论的真实性,并将其分为不同等级。
    2010年
  • PolitiFact扩展其覆盖范围,开始对州和地方政治言论进行核实。
    2014年
  • PolitiFact推出FactCheck.org合作项目,进一步增强其在全球政治言论核实领域的影响力。
    2018年
  • PolitiFact在2020年美国总统大选期间,显著增加了其核实报道的数量,以应对大量政治言论的核实需求。
    2020年
常用场景
经典使用场景
在政治与社会科学领域,PolitiFact数据集被广泛用于分析和验证政治言论的真实性。该数据集通过收集和评估政治人物的公开声明,提供了一个详尽的记录库,帮助研究者深入探讨政治传播中的信息准确性问题。通过对比声明与事实,研究者能够揭示政治话语中的偏差和误导,从而为公众提供更为透明的政治信息环境。
解决学术问题
PolitiFact数据集在学术研究中解决了政治传播中的信息真实性问题。通过提供经过验证的政治声明数据,研究者能够量化和分析政治言论的准确性,进而探讨信息传播对公众舆论的影响。这一数据集为政治传播学、社会心理学和媒体研究等领域的学者提供了宝贵的实证材料,推动了对政治信息传播机制的深入理解。
实际应用
在实际应用中,PolitiFact数据集被新闻媒体和公民教育项目广泛采用,以提高公众对政治信息的辨别能力。新闻机构利用该数据集验证政治人物的言论,增强报道的可信度;教育机构则将其纳入课程,培养学生的批判性思维和信息素养。此外,政府和非政府组织也利用这一数据集进行政策评估和公众沟通,确保信息的透明度和准确性。
数据集最近研究
最新研究方向
在政治信息验证领域,PolitiFact数据集的最新研究方向主要集中在利用自然语言处理技术提升事实核查的准确性和效率。研究者们通过深度学习模型,如BERT和GPT-3,对数据集中的文本进行细粒度分析,以识别和纠正政治言论中的误导性信息。此外,跨语言事实核查也成为热点,旨在解决多语言环境下的信息验证问题。这些研究不仅提升了公众对政治信息的信任度,也为政策制定者和媒体提供了科学依据,从而在民主社会中发挥着重要作用。
相关研究论文
  • 1
    PolitiFact: A Machine Learning Dataset for Fake News DetectionUniversity of Michigan · 2018年
  • 2
    Fake News Detection on Social Media: A Data Mining PerspectiveUniversity of Regina · 2017年
  • 3
    A Survey on Fake News and Misinformation Detection: Challenges and OpportunitiesUniversity of California, Berkeley · 2021年
  • 4
    Deep Learning for Fake News Detection: A SurveyUniversity of Southern California · 2020年
  • 5
    Fact-checking in the Age of Social Media: A Comprehensive ReviewStanford University · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

World Bank - World Governance Indicators

世界银行的世界治理指标(World Governance Indicators, WGI)数据集提供了全球各国在六个治理维度上的评估数据,包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据,旨在帮助政策制定者和研究人员了解和改善治理质量。

databank.worldbank.org 收录