sentence-transformers/parallel-sentences-tatoeba
收藏Hugging Face2024-06-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences-tatoeba
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的平行句子(即英语句子+其他语言的相同句子)。大多数句子来源于OPUS网站。特别是,该数据集包含了Tatoeba数据集。数据集按语言对分类,每对包含英语句子及其在另一种语言中的翻译。数据集规模较大,条目数量在1M到10M之间,适用于特征提取和句子相似性等任务。README还列出了Parallel Sentences集合中的相关数据集。
This dataset contains parallel sentences (i.e. English sentence + the same sentences in another language) for numerous other languages. Most of the sentences originate from the OPUS website. In particular, this dataset contains the Tatoeba dataset. The dataset is categorized by language pairs, with each pair containing English sentences and their translations in another language. The dataset is large, with sizes ranging from 1M to 10M entries, and is intended for tasks such as feature extraction and sentence similarity. The README also lists related datasets within the Parallel Sentences collection.
提供机构:
sentence-transformers
原始信息汇总
数据集概述 - Tatoeba
基本信息
- 语言: 支持多种语言,包括英语、阿拉伯语、保加利亚语等。
- 大小: 数据集大小在1M到10M之间。
- 任务类别: 特征提取、句子相似性。
- 数据集名称: Tatoeba。
数据集结构
-
特征:
english: 字符串类型。non_english: 字符串类型。
-
分割:
train: 训练集,包含多个子集,每个子集对应不同的语言对。dev: 开发集,同样包含多个子集,每个子集对应不同的语言对。
数据集详细配置
-
配置名称: all, en-ar, en-bg, en-ca, en-cs, en-da, en-de, en-el, en-es, en-et, en-fa, en-fi, en-fr, en-gl, en-gu, en-he, en-hi, en-hr, en-hu, en-hy, en-id, en-it, en-ja, en-ka, en-ko, en-ku, en-lt, en-lv, en-mk, en-mn, en-mr, en-ms, en-my, en-nb, en-nl, en-pl, en-pt, en-ro, en-ru, en-sk, en-sl, en-sq, en-sr, en-sv, en-th, en-tr, en-uk, en-ur, en-vi, en-zh。
-
数据文件:
- 每个配置名称下包含训练和开发数据文件,路径格式为
{config_name}/train-*或{config_name}/dev-*。
- 每个配置名称下包含训练和开发数据文件,路径格式为
数据集大小
- 下载大小: 根据不同配置名称,大小从几百万字节到几千万字节不等。
- 数据集大小: 同样根据不同配置名称,大小从几百万字节到几千万字节不等。
数据集使用
- 用途: 用于训练多语言句子嵌入模型。



