sentence-transformers/parallel-sentences
收藏Hugging Face2024-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含50多种语言的平行句对,以tsv.gz格式存储,每行包含一个英语句子和对应的其他语言的句子。数据来源于OPUS网站,并包含了多个子数据集,如Europarl、GlobalVoices、JW300等。这些数据可以用于训练多语言句子嵌入模型,但目前还不能直接通过Hugging Face数据集库使用,需要单独下载TSV文件。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
Parallel Sentences for 50+ languages
数据集内容
该数据集包含50多种语言的平行句子,格式为简单的tsv.gz文件,具体格式如下:
english_sentences sentence_in_other_language
数据来源
数据来源于OPUS网站。
包含的数据集
- Europarl
- GlobalVoices
- JW300
- MUSE
- News-Commentary
- OpenSubtitles
- Tatoeba
- Talks - 自定义翻译的演讲稿
- WikiMatrix
- WikiTitles - 自定义的平行Wikipedia标题数据集
使用场景
这些句子可用于训练多语言句子嵌入模型。详细使用方法请参考SBERT.net - Multilingual-Model。
使用限制
目前该数据集不能直接与Hugging Face数据集库一起使用,必须单独下载TSV文件。



