MSA-IR dataset, Twitter-15/17 dataset|社交媒体分析数据集|图像处理数据集
收藏数据集概述
数据集名称
- MSA-IR dataset
- Twitter-15/17 dataset
数据集内容
- MSA-IR dataset: 提供预处理后的数据,格式为pickles。由于版权保护,原始推文未提供。
- Twitter-15/17 dataset: 提供文本数据和标注。图像数据需从指定链接下载。
数据集下载链接
- MSA-IR dataset:
- Twitter-15/17 dataset:
数据集标注说明
- Txt_label: 文本描述的情感极性,标签为{-1, 0, 1},分别代表负面、中性和正面。
- Img_label: 视觉内容的情感极性,标签为{-1, 0, 1}。
- Multi_label: 整个图文帖子的情感极性,标签为{-1, 0, 1}。
- Cor_label: 图像与对应文本的信息相关性,标签为{y, n},分别代表相关和不相关。
预训练模型和代码
- DeepSentiBank: 用于提取中层视觉特征和形容词名词对(ANPs),源码和预训练模型可从链接下载。
- GloVe: 用于编码词向量的预训练模型(glove.twitter.27B.200d),可从百度网盘和Google drive下载。
引用信息
-
若使用此代码或数据集,请引用以下文献:
@article{chen2023HFIR, title={Joint multimodal sentiment analysis based on information relevance}, author={Chen, Danlei and Su, Wang and Wu, Peng and Hua, Bolin}, journal={Information Processing & Management}, volume={60}, number={2}, pages={103193}, year={2023}, publisher={Elsevier}, doi={10.1016/j.ipm.2022.103193} }

Global Solar Dataset
在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。
github 收录
中国光伏电站空间分布ChinaPV数据集(2015,2020年)
该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。
国家地球系统科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录