PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集
收藏数据集概述
名称: STSb Multi MT
语言: 德语 (de), 英语 (en), 西班牙语 (es), 法语 (fr), 意大利语 (it), 荷兰语 (nl), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 中文 (zh)
许可证: 其他
多语言性: 多语言
大小: 10K<n<100K
源数据集: 扩展自其他-sts-b
任务类别: 文本分类
任务ID: 文本评分, 语义相似性评分
标签: sentence-transformers
数据集大小和下载大小:
- 德语: 数据集大小 1307859 字节, 下载大小 823156 字节
- 英语: 数据集大小 1106317 字节, 下载大小 720594 字节
- 西班牙语: 数据集大小 1326943 字节, 下载大小 803220 字节
- 法语: 数据集大小 1364700 字节, 下载大小 828209 字节
- 意大利语: 数据集大小 1306293 字节, 下载大小 813106 字节
- 荷兰语: 数据集大小 1251434 字节, 下载大小 786341 字节
- 波兰语: 数据集大小 1241433 字节, 下载大小 832282 字节
- 葡萄牙语: 数据集大小 1284054 字节, 下载大小 799737 字节
- 俄语: 数据集大小 2077925 字节, 下载大小 1088400 字节
- 中文: 数据集大小 1045055 字节, 下载大小 715580 字节
数据集结构:
- 特征:
sentence1
: 字符串sentence2
: 字符串similarity_score
: 浮点数 (32位)
- 数据分割:
- 训练集: 5749 样本
- 验证集: 1500 样本
- 测试集: 1379 样本
数据集创建:
- 语言创建者: 众包, 发现, 机器生成
- 注释创建者: 众包
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
Apple Stock Price Data
Historical stock price data for AAPL (apple)
kaggle 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录