five

PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集

收藏
hugging_face2024-05-14 更新2024-04-19 收录
自然语言处理
机器翻译
下载链接:
https://hf-mirror.com/datasets/PhilipMay/stsb_multi_mt
下载链接
链接失效反馈
资源简介:
STSb Multi MT数据集是一个多语言的语义文本相似度(STS)基准数据集,包含了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的翻译版本。该数据集的主要用途是用于训练句子嵌入模型,如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集的结构包括句子对和它们的相似度评分,评分范围从0到5。数据集支持的任务包括文本分类和语义相似度评分。数据集的创建过程涉及众包和机器翻译,源数据来自STSbenchmark数据集。
提供机构:
PhilipMay
原始信息汇总

数据集概述

名称: STSb Multi MT

语言: 德语 (de), 英语 (en), 西班牙语 (es), 法语 (fr), 意大利语 (it), 荷兰语 (nl), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 中文 (zh)

许可证: 其他

多语言性: 多语言

大小: 10K<n<100K

源数据集: 扩展自其他-sts-b

任务类别: 文本分类

任务ID: 文本评分, 语义相似性评分

标签: sentence-transformers

数据集大小和下载大小:

  • 德语: 数据集大小 1307859 字节, 下载大小 823156 字节
  • 英语: 数据集大小 1106317 字节, 下载大小 720594 字节
  • 西班牙语: 数据集大小 1326943 字节, 下载大小 803220 字节
  • 法语: 数据集大小 1364700 字节, 下载大小 828209 字节
  • 意大利语: 数据集大小 1306293 字节, 下载大小 813106 字节
  • 荷兰语: 数据集大小 1251434 字节, 下载大小 786341 字节
  • 波兰语: 数据集大小 1241433 字节, 下载大小 832282 字节
  • 葡萄牙语: 数据集大小 1284054 字节, 下载大小 799737 字节
  • 俄语: 数据集大小 2077925 字节, 下载大小 1088400 字节
  • 中文: 数据集大小 1045055 字节, 下载大小 715580 字节

数据集结构:

  • 特征:
    • sentence1: 字符串
    • sentence2: 字符串
    • similarity_score: 浮点数 (32位)
  • 数据分割:
    • 训练集: 5749 样本
    • 验证集: 1500 样本
    • 测试集: 1379 样本

数据集创建:

  • 语言创建者: 众包, 发现, 机器生成
  • 注释创建者: 众包
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录