COVID-19 Disinformation Twitter Dataset (COVID-19 Disinfo dataset)

github2021-11-30 更新2024-05-31 收录

下载链接：

https://github.com/firojalam/COVID-19-disinformation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与COVID-19相关的错误信息推文，这些推文被标注了与错误信息相关的细致标签，回答了记者、事实核查员、社交媒体平台、政策制定者和社会整体感兴趣的七个不同问题。数据集包含阿拉伯语、保加利亚语、荷兰语和英语的标注。

This dataset comprises tweets related to COVID-19 misinformation, meticulously labeled with detailed tags that address seven distinct questions of interest to journalists, fact-checkers, social media platforms, policymakers, and society at large. The dataset includes annotations in Arabic, Bulgarian, Dutch, and English.

创建时间：

2021-09-05

原始信息汇总

数据集概述

数据集名称

COVID-19 Disinformation Twitter Dataset (COVID-19 Disinfo dataset)

数据集内容

包含与COVID-19相关的推文，这些推文被标注了与虚假信息相关的细粒度标签。
支持语言：阿拉伯语、保加利亚语、荷兰语和英语。

数据集结构

数据按语言分类，包括训练、开发和测试集。
每个文件包含推文ID和Q1-Q7的标签。
不包含推文文本和相关的JSON对象。

数据集统计

阿拉伯语数据：4542条推文
保加利亚语数据：4966条推文
荷兰语数据：3697条推文
英语数据：2665条推文

标签问题及可能的答案

Q1: 推文是否包含可验证的事实声明？
- 标签：YES, NO, Dont know or cant judge
Q2: 推文包含虚假信息的程度如何？
- 标签：NO, definitely contains no false information, NO, probably contains no false information, Not sure, YES, probably contains false information, YES, definitely contains false information
Q3: 推文的声明是否对公众有影响或感兴趣？
- 标签：NO, definitely not of interest, NO, probably not of interest, Not sure, YES, probably of interest, YES, definitely of interest
Q4: 推文对社会、个人、公司或产品的危害程度如何？
- 标签：NO, definitely not harmful, NO, probably not harmful, Not sure, YES, probably harmful, YES, definitely harmful
Q5: 专业事实检查员是否应该验证推文中的声明？
- 标签：NO, no need to check, NO, too trivial to check, YES, not urgent, YES, very urgent, Not sure
Q6: 推文对社会的危害性及原因？
- 标签：NO, not harmful, NO, joke or sarcasm, Not sure, YES, panic, YES, xenophobic, racist, prejudices, or hate-speech, YES, bad cure, YES, rumor or conspiracy, YES, other
Q7: 推文是否应引起政府实体的关注？
- 标签：NO, not interesting, Not sure, YES, categorized as in question 6, YES, other, YES, blame authorities, YES, contains advice, YES, calls for action, YES, discusses action taken, YES, discusses cure, YES, asks question

数据集版本

v1.0 [2021/11/05]
- 阿拉伯语数据：4966条推文
- 英语数据：4542条推文
- 保加利亚语数据：3697条推文
- 荷兰语数据：2665条推文

数据集下载

数据集目录中提供推文ID和标签。
使用推文恢复工具（如Java工具、Twarc、Docnow桌面应用程序）爬取推文。

搜集汇总

数据集介绍

构建方式

COVID-19 Disinformation Twitter Dataset（COVID-19 Disinfo dataset）的构建基于对社交媒体平台上与COVID-19相关的不实信息的系统性收集与标注。该数据集通过从Twitter平台获取推文，并针对每条推文进行精细化的标注，涵盖了阿拉伯语、保加利亚语、荷兰语和英语四种语言。标注过程由专业团队完成，标注内容围绕七个核心问题展开，这些问题涉及推文是否包含可验证的事实、是否包含虚假信息、是否对公众产生影响等。为确保数据的多样性与代表性，数据集还包含了多语言混合的版本。

使用方法

使用COVID-19 Disinformation Twitter Dataset时，研究人员可通过提供的推文ID与标注信息进行数据检索与分析。由于隐私保护的原因，数据集未直接提供推文文本，但用户可通过Twitter API或第三方工具（如Twarc）根据推文ID获取原始内容。数据集适用于自然语言处理、虚假信息检测、社交媒体分析等领域的研究。使用时应遵循CC BY-NC-SA 4.0许可协议，确保仅用于非商业研究目的。

背景与挑战

背景概述

COVID-19 Disinformation Twitter Dataset（COVID-19 Disinfo dataset）是由卡塔尔计算研究所（QCRI）等机构的研究团队于2021年发布的一个多语言数据集，旨在应对COVID-19疫情期间社交媒体上的虚假信息传播问题。该数据集包含了阿拉伯语、保加利亚语、荷兰语和英语的推文，每条推文都标注了与虚假信息相关的细粒度标签，涵盖了七个关键问题，如推文是否包含可验证的事实、是否包含虚假信息、是否对社会有害等。该数据集的研究成果发表在EMNLP 2021和ICWSM 2021等顶级学术会议上，为记者、事实核查员、社交媒体平台、政策制定者以及公众提供了重要的数据支持，推动了虚假信息检测和治理领域的研究进展。

当前挑战

COVID-19 Disinfo数据集在构建和应用过程中面临多重挑战。首先，虚假信息的多样性和复杂性使得标注工作极具挑战性，尤其是在多语言环境下，不同文化背景和语言表达方式增加了标注的难度。其次，推文的动态性和时效性导致数据采集和更新面临技术难题，部分推文可能因删除或隐私问题无法获取完整内容。此外，虚假信息的传播速度和范围对实时检测和干预提出了更高要求，如何从海量数据中快速识别并应对虚假信息是一个亟待解决的问题。最后，数据集的构建还需平衡隐私保护和数据可用性，确保在不侵犯用户隐私的前提下提供高质量的研究数据。

常用场景

经典使用场景

COVID-19 Disinformation Twitter Dataset（COVID-19 Disinfo dataset）主要用于研究社交媒体上关于COVID-19的虚假信息传播。该数据集通过标注推文中的细粒度标签，帮助研究人员分析虚假信息的特征、传播模式及其对社会的影响。经典使用场景包括训练和评估自然语言处理模型，特别是针对虚假信息检测、情感分析和内容分类等任务。通过多语言支持（阿拉伯语、保加利亚语、荷兰语和英语），该数据集为跨语言研究提供了丰富的资源。

解决学术问题

该数据集解决了COVID-19疫情期间虚假信息传播的学术研究问题。通过提供详细的标注数据，研究人员能够深入分析虚假信息的类型、传播动机及其对公众认知的影响。此外，数据集还支持研究虚假信息检测算法的开发与优化，为社交媒体平台和政策制定者提供了科学依据。其多语言特性进一步推动了跨文化背景下虚假信息传播的对比研究，填补了相关领域的空白。

实际应用

在实际应用中，COVID-19 Disinfo dataset为社交媒体平台、新闻机构和政府部门的虚假信息治理提供了重要支持。通过分析数据集中的标注信息，平台可以优化内容审核机制，及时识别并遏制虚假信息的传播。新闻机构可以利用该数据集训练自动化工具，辅助事实核查工作。政府部门则能够基于数据集的洞察，制定更有效的公共信息传播策略，提升公众对疫情相关信息的信任度。

数据集最近研究