five

Chinese_Rumor_Dataset|社交媒体谣言数据集|信息监测数据集

收藏
github2023-10-15 更新2024-05-31 收录
社交媒体谣言
信息监测
下载链接:
https://github.com/yeren66/ChineseRumorDataset
下载链接
链接失效反馈
资源简介:
该数据为从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。其中当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;而CED_Dataset中是包含转发/评论信息的中文谣言数据集。

This dataset comprises Chinese rumor data scraped from the Sina Weibo misinformation reporting platform, divided into two parts. The dataset in the current directory includes only the original Weibo posts of rumors, excluding retweets and comments; whereas the CED_Dataset contains a Chinese rumor dataset that includes retweets and comments.
创建时间:
2023-10-15
原始信息汇总

中文谣言和虚假新闻数据集概述

Chinese_Rumor_Dataset

  • 来源https://github.com/thunlp/Chinese_Rumor_Dataset
  • 内容:该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;CED_Dataset中包含转发/评论信息的中文谣言数据集。
  • 特点:质量较高。

LTCR 数据集

  • 来源:论文Long-Text Chinese Rumor Detection Dataset
  • 内容:包含1,729条真实新闻和500条假新闻,特别适用于COVID-19相关复杂假新闻的检测。真实新闻和虚假新闻的平均长度分别约为230和152个字符。

COVID19-Health-Rumor

  • 来源:论文Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis
  • 内容:包含COVID-19早期在中国互联网上流传的健康谣言,以及新浪微博上旨在反驳或揭穿这些谣言的帖子。

CHECKED

  • 来源:论文CHECKED: Chinese COVID-19 Fake News Dataset
  • 内容:包括真假新闻,以json格式与csv格式存储。

CrossFake

  • 来源:论文Cross-lingual COVID-19 Fake News Detection
  • 内容:包含中、英文的真、假新闻。

CHEF

  • 来源:论文CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking
  • 内容:详见论文以及readme。

infodemic 2019

  • 来源:论文Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification
  • 内容:通过收集COVID-19爆发期间广泛传播的中国信息流行病来构建,每条记录都被标记为真实、错误或可疑。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建中文谣言和虚假新闻数据集时,研究团队通过从新浪微博的不实信息举报平台进行系统性抓取,确保了数据的广泛性和代表性。数据集分为两个主要部分:一部分仅包含谣言原微博,另一部分则包含了转发和评论信息,从而提供了更为全面的谣言传播网络分析基础。此外,数据集的构建过程中,研究团队还参考了多篇相关领域的学术论文,如《Long-Text Chinese Rumor Detection Dataset》和《Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification》,以确保数据集的科学性和实用性。
特点
中文谣言和虚假新闻数据集的显著特点在于其内容的多样性和结构的复杂性。数据集不仅涵盖了谣言的原微博内容,还包含了丰富的转发和评论信息,这为研究谣言的传播路径和影响范围提供了宝贵的数据支持。此外,数据集中的信息经过严格的分类和标记,确保了每条记录的真实性、错误性或可疑性,从而为谣言检测和信息验证提供了可靠的基础。数据集的多样性还体现在其涵盖了多个特定领域,如COVID-19相关的健康谣言,进一步增强了其在实际应用中的广泛适用性。
使用方法
使用中文谣言和虚假新闻数据集时,研究者可以通过分析原微博及其转发和评论信息,深入研究谣言的传播机制和影响因素。数据集支持多种数据处理和分析工具,如Python的pandas和自然语言处理库,以及机器学习算法,用于构建谣言检测模型。此外,数据集的分类和标记功能使得研究者可以进行有针对性的训练和测试,从而提高模型的准确性和可靠性。研究者还可以利用数据集中的COVID-19相关谣言信息,进行特定领域的谣言检测和信息验证研究,为公共卫生领域的信息管理提供科学依据。
背景与挑战
背景概述
在信息爆炸的时代,谣言和虚假新闻的传播已成为社会治理和公共健康领域的重要挑战。中文谣言和虚假新闻数据集(Chinese_Rumor_Dataset)由清华大学自然语言处理与社会人文计算实验室(THUNLP)创建,旨在为中文谣言检测提供高质量的数据资源。该数据集收集自新浪微博的不实信息举报平台,涵盖了多个子数据集,如LTCR、COVID19-Health-Rumor等,分别针对不同类型的谣言和虚假新闻进行分类。这些数据集不仅为学术研究提供了丰富的素材,也为实际应用中的谣言检测算法提供了基准测试数据。
当前挑战
尽管中文谣言和虚假新闻数据集在谣言检测领域具有重要价值,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性和覆盖范围有限,难以全面反映中文社交媒体上谣言的复杂性。其次,数据标注的准确性和一致性问题,尤其是在处理长文本和多模态数据时,标注工作变得尤为复杂。此外,随着社交媒体平台的更新和用户行为的变化,数据集的时效性和动态更新机制也成为一个亟待解决的问题。这些挑战不仅影响了数据集的质量,也制约了相关研究和技术的发展。
常用场景
经典使用场景
在信息传播领域,Chinese_Rumor_Dataset 被广泛用于谣言检测与虚假新闻识别的研究。该数据集通过收集新浪微博上的不实信息,为研究者提供了一个丰富的语料库,用于开发和验证谣言检测算法。其经典使用场景包括基于文本特征的谣言分类、谣言传播路径分析以及谣言与真实新闻的对比研究。
实际应用
在实际应用中,Chinese_Rumor_Dataset 被用于开发社交媒体平台的谣言检测系统,帮助平台及时识别和处理虚假信息,维护信息的真实性和公共信任。此外,该数据集还被用于政府和企业的舆情监控系统,通过实时分析社交媒体上的信息流,预警和应对潜在的谣言风险。
衍生相关工作
基于 Chinese_Rumor_Dataset,研究者们开发了多种谣言检测模型和算法,如基于深度学习的谣言分类模型和基于社交网络分析的谣言传播路径预测模型。此外,该数据集还催生了多个相关数据集的构建,如 COVID-19 相关的虚假新闻数据集,进一步推动了谣言检测和虚假新闻识别领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CRSP Stock Database

CRSP Stock Database包含美国股票市场的历史数据,涵盖了股票价格、交易量、分红、拆股等信息。该数据库广泛用于金融研究,特别是资产定价和市场效率的研究。

www.crsp.org 收录