Twitter数据集列表|社交媒体分析数据集|情感分析数据集
收藏数据集概述
数据集列表
推特数据集
-
US 2016 election tweets - Mega Link
- 链接:US 2016 election tweets - Mega Link
- 描述:包含2016年8月30日至2017年2月28日期间提及候选人的美国选举推文。
-
Bitcoin tweets - 16M tweets without sentiments tagged
- 链接:Bitcoin tweets - 16M tweets without sentiments tagged
- 描述:从2016年1月1日至2019年3月29日,收集包含比特币或BTC的推文,未标记情感。
-
Bitcoin tweets - 16M tweets With Sentiment Tagged
- 链接:Bitcoin tweets - 16M tweets With Sentiment Tagged
- 描述:从2016年1月1日至2019年3月29日,收集包含比特币或BTC的推文,已标记情感。
-
TwitterStream - Largest Open-Source Tweets Dataset
- 链接:TwitterStream - Largest Open-Source Tweets Dataset
- 描述:从一般推特流中抓取的JSON集合,用于研究、历史记录、测试和记忆。
-
Coronavirus (covid19) Tweets
- 链接:Coronavirus (covid19) Tweets
- 描述:包含应用了新冠病毒相关标签的用户的推文。
-
WHO tweets dataset
- 链接:WHO tweets dataset
- 描述:一个多语言数据集,总计近7GB,主要包含与WHO相关的中性推文。
-
COVID-19 : Twitter Dataset Of 100+ Million Tweets
- 链接:COVID-19 : Twitter Dataset Of 100+ Million Tweets
- 描述:另一个大规模的新冠病毒推特数据集,用于开放科学研究。
-
Twitter News Dataset
- 链接:Twitter News Dataset
- 描述:自2020年1月起,使用“新闻”作为搜索参数从推特上抓取的推文集合。

data
食神オリジナルデータ
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Houston2013, Berlin, Augsburg
本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
LEVIR-CD
LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。
OpenDataLab 收录