Chinese_Rumor_Dataset

github2023-10-15 更新2024-05-31 收录

下载链接：

https://github.com/yeren66/ChineseRumorDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。其中当前目录下的数据集仅包含谣言原微博，不包含转发/评论信息；而CED_Dataset中是包含转发/评论信息的中文谣言数据集。

This dataset comprises Chinese rumor data scraped from the Sina Weibo misinformation reporting platform, divided into two parts. The dataset in the current directory includes only the original Weibo posts of rumors, excluding retweets and comments; whereas the CED_Dataset contains a Chinese rumor dataset that includes retweets and comments.

创建时间：

2023-10-15

原始信息汇总

中文谣言和虚假新闻数据集概述

Chinese_Rumor_Dataset

来源：https://github.com/thunlp/Chinese_Rumor_Dataset
内容：该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据，分为两个部分。当前目录下的数据集仅包含谣言原微博，不包含转发/评论信息；CED_Dataset中包含转发/评论信息的中文谣言数据集。
特点：质量较高。

LTCR 数据集

来源：论文Long-Text Chinese Rumor Detection Dataset
内容：包含1,729条真实新闻和500条假新闻，特别适用于COVID-19相关复杂假新闻的检测。真实新闻和虚假新闻的平均长度分别约为230和152个字符。

COVID19-Health-Rumor

来源：论文Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis
内容：包含COVID-19早期在中国互联网上流传的健康谣言，以及新浪微博上旨在反驳或揭穿这些谣言的帖子。

CHECKED

来源：论文CHECKED: Chinese COVID-19 Fake News Dataset
内容：包括真假新闻，以json格式与csv格式存储。

CrossFake

来源：论文Cross-lingual COVID-19 Fake News Detection
内容：包含中、英文的真、假新闻。

CHEF

来源：论文CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking
内容：详见论文以及readme。

infodemic 2019

来源：论文Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification
内容：通过收集COVID-19爆发期间广泛传播的中国信息流行病来构建，每条记录都被标记为真实、错误或可疑。

搜集汇总

数据集介绍

构建方式

在构建中文谣言和虚假新闻数据集时，研究团队通过从新浪微博的不实信息举报平台进行系统性抓取，确保了数据的广泛性和代表性。数据集分为两个主要部分：一部分仅包含谣言原微博，另一部分则包含了转发和评论信息，从而提供了更为全面的谣言传播网络分析基础。此外，数据集的构建过程中，研究团队还参考了多篇相关领域的学术论文，如《Long-Text Chinese Rumor Detection Dataset》和《Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification》，以确保数据集的科学性和实用性。

特点

中文谣言和虚假新闻数据集的显著特点在于其内容的多样性和结构的复杂性。数据集不仅涵盖了谣言的原微博内容，还包含了丰富的转发和评论信息，这为研究谣言的传播路径和影响范围提供了宝贵的数据支持。此外，数据集中的信息经过严格的分类和标记，确保了每条记录的真实性、错误性或可疑性，从而为谣言检测和信息验证提供了可靠的基础。数据集的多样性还体现在其涵盖了多个特定领域，如COVID-19相关的健康谣言，进一步增强了其在实际应用中的广泛适用性。

使用方法

使用中文谣言和虚假新闻数据集时，研究者可以通过分析原微博及其转发和评论信息，深入研究谣言的传播机制和影响因素。数据集支持多种数据处理和分析工具，如Python的pandas和自然语言处理库，以及机器学习算法，用于构建谣言检测模型。此外，数据集的分类和标记功能使得研究者可以进行有针对性的训练和测试，从而提高模型的准确性和可靠性。研究者还可以利用数据集中的COVID-19相关谣言信息，进行特定领域的谣言检测和信息验证研究，为公共卫生领域的信息管理提供科学依据。

背景与挑战

背景概述

在信息爆炸的时代，谣言和虚假新闻的传播已成为社会治理和公共健康领域的重要挑战。中文谣言和虚假新闻数据集（Chinese_Rumor_Dataset）由清华大学自然语言处理与社会人文计算实验室（THUNLP）创建，旨在为中文谣言检测提供高质量的数据资源。该数据集收集自新浪微博的不实信息举报平台，涵盖了多个子数据集，如LTCR、COVID19-Health-Rumor等，分别针对不同类型的谣言和虚假新闻进行分类。这些数据集不仅为学术研究提供了丰富的素材，也为实际应用中的谣言检测算法提供了基准测试数据。

当前挑战

尽管中文谣言和虚假新闻数据集在谣言检测领域具有重要价值，但其构建和应用过程中仍面临诸多挑战。首先，数据集的多样性和覆盖范围有限，难以全面反映中文社交媒体上谣言的复杂性。其次，数据标注的准确性和一致性问题，尤其是在处理长文本和多模态数据时，标注工作变得尤为复杂。此外，随着社交媒体平台的更新和用户行为的变化，数据集的时效性和动态更新机制也成为一个亟待解决的问题。这些挑战不仅影响了数据集的质量，也制约了相关研究和技术的发展。

常用场景

经典使用场景

在信息传播领域，Chinese_Rumor_Dataset 被广泛用于谣言检测与虚假新闻识别的研究。该数据集通过收集新浪微博上的不实信息，为研究者提供了一个丰富的语料库，用于开发和验证谣言检测算法。其经典使用场景包括基于文本特征的谣言分类、谣言传播路径分析以及谣言与真实新闻的对比研究。

实际应用

在实际应用中，Chinese_Rumor_Dataset 被用于开发社交媒体平台的谣言检测系统，帮助平台及时识别和处理虚假信息，维护信息的真实性和公共信任。此外，该数据集还被用于政府和企业的舆情监控系统，通过实时分析社交媒体上的信息流，预警和应对潜在的谣言风险。

衍生相关工作

基于 Chinese_Rumor_Dataset，研究者们开发了多种谣言检测模型和算法，如基于深度学习的谣言分类模型和基于社交网络分析的谣言传播路径预测模型。此外，该数据集还催生了多个相关数据集的构建，如 COVID-19 相关的虚假新闻数据集，进一步推动了谣言检测和虚假新闻识别领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集