stocknet-dataset|股票预测数据集|社交媒体分析数据集
收藏数据集概述
数据集名称
stocknet-dataset
数据集目的
用于股票价格预测,结合推文和历史股票价格数据。
数据集时间范围
包含2014年1月1日至2016年1月1日的股票价格变动数据。
目标股票
- 88只股票
- 来自9个行业,包括所有8个集团行业股票及每个其他8个行业中资本规模排名前10的股票。
数据组件
主要组件
- ./tweet: 推文数据,来源Twitter
- ./price: 价格数据,来源[Yahoo Finance](http://nance.yahoo.com/)
数据组织
- ./tweet/raw: 原始推文数据
- ./tweet/preprocessed: 预处理后的推文数据
- ./price/raw: 原始价格数据
- ./price/preprocessed: 预处理后的价格数据
数据格式
原始推文数据
- 格式: JSON
- 键值: 参见Twitter推文JSON介绍
预处理后的推文数据
- 格式: JSON
- 键值: text, user_id_str, created_at
原始价格数据
- 格式: CSV
- 条目: date, open price, high price, low price, close price, adjust close price, volume
预处理后的价格数据
- 格式: TXT
- 条目: date, movement percent, open price, high price, low price, close price, volume
- 注意: open, high, low, close prices为标准化值。

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
Global Water Quality Dataset
该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。
www.kaggle.com 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录