sentiments|多语言情感分析数据集
收藏数据集概述
数据集配置
阿拉伯语 (Arabic)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 468004
- 样本数: 2435
- 下载大小: 187657 字节
- 数据集大小: 468004 字节
中文 (Chinese)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 30420137
- 样本数: 160399
- 下载大小: 14156530 字节
- 数据集大小: 30420137 字节
默认 (Default)
- 特征:
statement
: 字符串label
: 64位整数language
: 字符串
- 分割:
english
:- 字节数: 393918
- 样本数: 2485
japanese
:- 字节数: 53826202
- 样本数: 160356
chinese
:- 字节数: 32184526
- 样本数: 160399
spanish
:- 字节数: 325604
- 样本数: 2439
arabic
:- 字节数: 492354
- 样本数: 2435
malay
:- 字节数: 1024644
- 样本数: 6263
french
:- 字节数: 367743
- 样本数: 2475
hindi
:- 字节数: 307080
- 样本数: 2454
german
:- 字节数: 298242
- 样本数: 2408
indonesian
:- 字节数: 3518289
- 样本数: 14591
portuguese
:- 字节数: 314949
- 样本数: 2450
italian
:- 字节数: 342823
- 样本数: 2450
- 下载大小: 38641710 字节
- 数据集大小: 93396374 字节
英语 (English)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 366583
- 样本数: 2485
- 下载大小: 169002 字节
- 数据集大小: 366583 字节
法语 (French)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 342993
- 样本数: 2475
- 下载大小: 141033 字节
- 数据集大小: 342993 字节
德语 (German)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 274162
- 样本数: 2408
- 下载大小: 126387 字节
- 数据集大小: 274162 字节
印地语 (Hindi)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 284994
- 样本数: 2454
- 下载大小: 129800 字节
- 数据集大小: 284994 字节
印度尼西亚语 (Indonesian)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 3314015
- 样本数: 14591
- 下载大小: 1364537 字节
- 数据集大小: 3314015 字节
意大利语 (Italian)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 315873
- 样本数: 2450
- 下载大小: 139217 字节
- 数据集大小: 315873 字节
日语 (Japanese)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 51901930
- 样本数: 160356
- 下载大小: 21448616 字节
- 数据集大小: 51901930 字节
马来语 (Malay)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 968277
- 样本数: 6263
- 下载大小: 434926 字节
- 数据集大小: 968277 字节
葡萄牙语 (Portuguese)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 280649
- 样本数: 2450
- 下载大小: 115824 字节
- 数据集大小: 280649 字节
西班牙语 (Spanish)
- 特征:
statement
: 字符串label
: 64位整数
- 分割:
train
:- 字节数: 298775
- 样本数: 2439
- 下载大小: 132791 字节
- 数据集大小: 298775 字节

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
SWaT Dataset
SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。
itrust.sutd.edu.sg 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录