five

Chinese_Rumor_Dataset|社交媒体谣言数据集|信息监测数据集

收藏
github2023-10-15 更新2024-05-31 收录
社交媒体谣言
信息监测
下载链接:
https://github.com/yeren66/ChineseRumorDataset
下载链接
链接失效反馈
资源简介:
该数据为从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。其中当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;而CED_Dataset中是包含转发/评论信息的中文谣言数据集。

This dataset comprises Chinese rumor data scraped from the Sina Weibo misinformation reporting platform, divided into two parts. The dataset in the current directory includes only the original Weibo posts of rumors, excluding retweets and comments; whereas the CED_Dataset contains a Chinese rumor dataset that includes retweets and comments.
创建时间:
2023-10-15
原始信息汇总

中文谣言和虚假新闻数据集概述

Chinese_Rumor_Dataset

  • 来源https://github.com/thunlp/Chinese_Rumor_Dataset
  • 内容:该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;CED_Dataset中包含转发/评论信息的中文谣言数据集。
  • 特点:质量较高。

LTCR 数据集

  • 来源:论文Long-Text Chinese Rumor Detection Dataset
  • 内容:包含1,729条真实新闻和500条假新闻,特别适用于COVID-19相关复杂假新闻的检测。真实新闻和虚假新闻的平均长度分别约为230和152个字符。

COVID19-Health-Rumor

  • 来源:论文Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis
  • 内容:包含COVID-19早期在中国互联网上流传的健康谣言,以及新浪微博上旨在反驳或揭穿这些谣言的帖子。

CHECKED

  • 来源:论文CHECKED: Chinese COVID-19 Fake News Dataset
  • 内容:包括真假新闻,以json格式与csv格式存储。

CrossFake

  • 来源:论文Cross-lingual COVID-19 Fake News Detection
  • 内容:包含中、英文的真、假新闻。

CHEF

  • 来源:论文CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking
  • 内容:详见论文以及readme。

infodemic 2019

  • 来源:论文Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification
  • 内容:通过收集COVID-19爆发期间广泛传播的中国信息流行病来构建,每条记录都被标记为真实、错误或可疑。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建中文谣言和虚假新闻数据集时,研究团队通过从新浪微博的不实信息举报平台进行系统性抓取,确保了数据的广泛性和代表性。数据集分为两个主要部分:一部分仅包含谣言原微博,另一部分则包含了转发和评论信息,从而提供了更为全面的谣言传播网络分析基础。此外,数据集的构建过程中,研究团队还参考了多篇相关领域的学术论文,如《Long-Text Chinese Rumor Detection Dataset》和《Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification》,以确保数据集的科学性和实用性。
特点
中文谣言和虚假新闻数据集的显著特点在于其内容的多样性和结构的复杂性。数据集不仅涵盖了谣言的原微博内容,还包含了丰富的转发和评论信息,这为研究谣言的传播路径和影响范围提供了宝贵的数据支持。此外,数据集中的信息经过严格的分类和标记,确保了每条记录的真实性、错误性或可疑性,从而为谣言检测和信息验证提供了可靠的基础。数据集的多样性还体现在其涵盖了多个特定领域,如COVID-19相关的健康谣言,进一步增强了其在实际应用中的广泛适用性。
使用方法
使用中文谣言和虚假新闻数据集时,研究者可以通过分析原微博及其转发和评论信息,深入研究谣言的传播机制和影响因素。数据集支持多种数据处理和分析工具,如Python的pandas和自然语言处理库,以及机器学习算法,用于构建谣言检测模型。此外,数据集的分类和标记功能使得研究者可以进行有针对性的训练和测试,从而提高模型的准确性和可靠性。研究者还可以利用数据集中的COVID-19相关谣言信息,进行特定领域的谣言检测和信息验证研究,为公共卫生领域的信息管理提供科学依据。
背景与挑战
背景概述
在信息爆炸的时代,谣言和虚假新闻的传播已成为社会治理和公共健康领域的重要挑战。中文谣言和虚假新闻数据集(Chinese_Rumor_Dataset)由清华大学自然语言处理与社会人文计算实验室(THUNLP)创建,旨在为中文谣言检测提供高质量的数据资源。该数据集收集自新浪微博的不实信息举报平台,涵盖了多个子数据集,如LTCR、COVID19-Health-Rumor等,分别针对不同类型的谣言和虚假新闻进行分类。这些数据集不仅为学术研究提供了丰富的素材,也为实际应用中的谣言检测算法提供了基准测试数据。
当前挑战
尽管中文谣言和虚假新闻数据集在谣言检测领域具有重要价值,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性和覆盖范围有限,难以全面反映中文社交媒体上谣言的复杂性。其次,数据标注的准确性和一致性问题,尤其是在处理长文本和多模态数据时,标注工作变得尤为复杂。此外,随着社交媒体平台的更新和用户行为的变化,数据集的时效性和动态更新机制也成为一个亟待解决的问题。这些挑战不仅影响了数据集的质量,也制约了相关研究和技术的发展。
常用场景
经典使用场景
在信息传播领域,Chinese_Rumor_Dataset 被广泛用于谣言检测与虚假新闻识别的研究。该数据集通过收集新浪微博上的不实信息,为研究者提供了一个丰富的语料库,用于开发和验证谣言检测算法。其经典使用场景包括基于文本特征的谣言分类、谣言传播路径分析以及谣言与真实新闻的对比研究。
实际应用
在实际应用中,Chinese_Rumor_Dataset 被用于开发社交媒体平台的谣言检测系统,帮助平台及时识别和处理虚假信息,维护信息的真实性和公共信任。此外,该数据集还被用于政府和企业的舆情监控系统,通过实时分析社交媒体上的信息流,预警和应对潜在的谣言风险。
衍生相关工作
基于 Chinese_Rumor_Dataset,研究者们开发了多种谣言检测模型和算法,如基于深度学习的谣言分类模型和基于社交网络分析的谣言传播路径预测模型。此外,该数据集还催生了多个相关数据集的构建,如 COVID-19 相关的虚假新闻数据集,进一步推动了谣言检测和虚假新闻识别领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

LUNA16

LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录