igorktech/nllb-200-40K-blaser-3-spa-normalized
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/igorktech/nllb-200-40K-blaser-3-spa-normalized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含40303个样本,主要用于多语言文本对的分析。每个样本包含以下特征:laser_score(激光评分)、lang1(语言1)、text1(文本1)、lang2(语言2)、text2(文本2)和blaser_sim(双向激光相似度)。数据集仅包含一个训练集分割,文件大小为6839683字节。
This dataset contains 40,303 samples, primarily used for the analysis of multilingual text pairs. Each sample includes the following features: laser_score, lang1, text1, lang2, text2, and blaser_sim (bidirectional laser similarity). The dataset includes only a training split, with a file size of 6,839,683 bytes.
提供机构:
igorktech
原始信息汇总
数据集概述
数据集信息
特征
- laser_score: 类型为
float64 - lang1: 类型为
string - text1: 类型为
string - lang2: 类型为
string - text2: 类型为
string - blaser_sim: 类型为
float64
数据分割
- train: 包含 40303 个样本,占用 6839683 字节
数据集大小
- 下载大小: 4917776 字节
- 数据集大小: 6839683 字节
配置
- default: 包含
train分割的数据文件路径为data/train-*



