Chinese_Rumor_Dataset|社交媒体谣言数据集|信息监测数据集
收藏中文谣言和虚假新闻数据集概述
Chinese_Rumor_Dataset
- 来源:https://github.com/thunlp/Chinese_Rumor_Dataset
- 内容:该数据集包含从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;CED_Dataset中包含转发/评论信息的中文谣言数据集。
- 特点:质量较高。
LTCR 数据集
- 来源:论文
Long-Text Chinese Rumor Detection Dataset
- 内容:包含1,729条真实新闻和500条假新闻,特别适用于COVID-19相关复杂假新闻的检测。真实新闻和虚假新闻的平均长度分别约为230和152个字符。
COVID19-Health-Rumor
- 来源:论文
Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis
- 内容:包含COVID-19早期在中国互联网上流传的健康谣言,以及新浪微博上旨在反驳或揭穿这些谣言的帖子。
CHECKED
- 来源:论文
CHECKED: Chinese COVID-19 Fake News Dataset
- 内容:包括真假新闻,以json格式与csv格式存储。
CrossFake
- 来源:论文
Cross-lingual COVID-19 Fake News Detection
- 内容:包含中、英文的真、假新闻。
CHEF
- 来源:论文
CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking
- 内容:详见论文以及readme。
infodemic 2019
- 来源:论文
Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification
- 内容:通过收集COVID-19爆发期间广泛传播的中国信息流行病来构建,每条记录都被标记为真实、错误或可疑。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
CRSP Stock Database
CRSP Stock Database包含美国股票市场的历史数据,涵盖了股票价格、交易量、分红、拆股等信息。该数据库广泛用于金融研究,特别是资产定价和市场效率的研究。
www.crsp.org 收录