CHECKED

Name: CHECKED
Creator: 数据实验室，电气工程与计算机科学系，雪城大学
Published: 2021-06-13 10:17:47
License: 暂无描述

arXiv2021-06-13 更新2024-06-21 收录

下载链接：

https://github.com/cyang03/CHECKED

下载链接

链接失效反馈

官方服务：

资源简介：

CHECKED数据集是由雪城大学数据实验室创建的首个中文COVID-19假新闻数据集，包含2104条微博，分为真实和虚假两类，覆盖了2019年12月至2020年8月的时间段。数据集不仅包括文本信息，还涵盖了视觉、时间和网络信息，以及每条微博的转发、评论和点赞数。创建过程中，研究团队通过特定的关键词列表筛选微博，并依赖官方的事实核查结果进行验证。该数据集主要用于研究COVID-19假新闻的传播模式和内容分析，旨在提高公众对疫情相关信息的辨识能力。

The CHECKED dataset is the first Chinese COVID-19 fake news dataset developed by the Data Lab of Syracuse University. It comprises 2104 Weibo posts categorized into two classes: genuine and fake, covering the period from December 2019 to August 2020. In addition to textual information, the dataset also includes visual, temporal, and network metadata, as well as the counts of reposts, comments, and likes for each Weibo post. During its creation, the research team screened Weibo posts using a specific keyword list and verified the content via official fact-checking results. This dataset is mainly used to study the propagation patterns and content analysis of COVID-19 fake news, aiming to enhance the public's ability to identify pandemic-related misinformation.

提供机构：

数据实验室，电气工程与计算机科学系，雪城大学

创建时间：

2020-10-19

搜集汇总

数据集介绍

构建方式

在社交媒体信息可信度研究领域，CHECKED数据集的构建体现了严谨的学术规范。该数据集通过微博社区管理中心获取经专家核实的虚假信息，同时依据国家信息中心发布的权威报告，选取《人民日报》微博作为真实信息源。研究团队采用包含39个中英文关键词的列表，精准筛选出2019年12月至2020年8月期间与新冠疫情相关的微博内容。每条数据均包含哈希处理的用户与微博ID、文本内容、多媒体链接及完整的传播轨迹记录，最终形成包含2104条标注样本的标准化数据集。

特点

CHECKED数据集在疫情信息研究领域展现出多维度的学术价值。其核心特征在于首次提供了中文社交媒体中新冠疫情信息的真实性标注，包含1760条真实微博与344条虚假微博的对比样本。数据集不仅涵盖文本、图像、视频等多模态信息，更完整收录了186万余次转发、118万余条评论及5685万余次点赞的传播数据，揭示了信息扩散的动力学特征。时序维度上覆盖疫情暴发初期至防控常态化阶段，为研究信息传播的时空演化规律提供了珍贵样本。

使用方法

该数据集为信息传播学与计算社会科学研究提供了标准化实验平台。研究者可基于多模态特征开发虚假信息检测模型，利用文本卷积神经网络等架构在70%训练集上获得0.938的宏F1值。传播网络分析可通过转发评论数据构建用户交互图谱，探究信息级联传播机制。时序分析方法能追踪疫情不同阶段的信息演化模式，而跨模态对比研究则可揭示文本与视觉信息的协同传播规律。所有数据均经过哈希脱敏处理，确保符合学术伦理规范。

背景与挑战

背景概述

在新冠疫情期间，社交媒体成为公众获取信息的重要渠道，同时也滋生了大量虚假新闻的传播。为应对这一挑战，雪城大学数据实验室的研究团队于2020年构建了CHECKED数据集，这是首个专注于中文社交媒体中COVID-19虚假新闻的标注数据集。该数据集涵盖了从2019年12月至2020年8月期间微博平台上的2104条已验证微博，包含真实与虚假两类标签，并整合了文本、图像、视频及传播网络等多模态信息。CHECKED的发布填补了中文疫情虚假新闻研究的数据空白，为信息可信度分析、虚假新闻检测及传播动力学研究提供了关键资源，推动了计算社会科学与健康信息学领域的交叉探索。

当前挑战

CHECKED数据集致力于解决社交媒体中COVID-19虚假新闻检测的复杂挑战，其核心问题在于如何从多模态、高噪声的社交内容中精准识别虚假信息。具体挑战包括：首先，虚假新闻常以隐蔽的语言模式和情感操纵手段传播，要求模型具备深层次的语义理解与跨模态关联分析能力；其次，数据构建过程中面临标注一致性难题，需依赖专家验证确保标签可靠性，同时需处理微博平台的数据访问限制与用户隐私保护问题。此外，疫情信息的动态演变导致数据时效性强，要求数据集持续更新以覆盖新兴虚假新闻模式，这为数据采集与维护带来了持续性挑战。

常用场景

经典使用场景

在社交媒体信息可信度研究领域，CHECKED数据集为分析COVID-19相关虚假新闻的传播模式提供了关键资源。该数据集整合了微博平台上2104条经过事实核查的微博客，涵盖文本、图像、视频及传播网络等多模态信息，使得研究者能够深入探究虚假信息在特定公共卫生事件中的扩散机制与内容特征。通过时间序列与用户互动数据的结合，该数据集常用于构建和验证虚假新闻检测模型，特别是在中文语境下识别疫情相关信息的可信度。

衍生相关工作

围绕CHECKED数据集，学术界衍生了一系列聚焦于多模态虚假新闻检测的经典研究。例如，基于该数据集开发的注意力机制循环神经网络模型，显著提升了文本与视觉特征融合的效能。后续工作进一步探索了图神经网络在传播网络分析中的应用，以识别虚假信息的扩散路径与关键节点。同时，该数据集促进了跨平台比较研究，如将微博数据与Twitter等国际社交媒体进行对比，深化了对不同文化背景下信息疫情异同的理解。这些研究共同推动了社交媒体可信度评估技术向多维度、动态化方向发展。

数据集最近研究