five

sentence-transformers/parallel-sentences

收藏
Hugging Face2024-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/parallel-sentences
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含50多种语言的平行句对,以tsv.gz格式存储,每行包含一个英语句子和对应的其他语言的句子。数据来源于OPUS网站,并包含了多个子数据集,如Europarl、GlobalVoices、JW300等。这些数据可以用于训练多语言句子嵌入模型,但目前还不能直接通过Hugging Face数据集库使用,需要单独下载TSV文件。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集名称

Parallel Sentences for 50+ languages

数据集内容

该数据集包含50多种语言的平行句子,格式为简单的tsv.gz文件,具体格式如下:

english_sentences sentence_in_other_language

数据来源

数据来源于OPUS网站

包含的数据集

  • Europarl
  • GlobalVoices
  • JW300
  • MUSE
  • News-Commentary
  • OpenSubtitles
  • Tatoeba
  • Talks - 自定义翻译的演讲稿
  • WikiMatrix
  • WikiTitles - 自定义的平行Wikipedia标题数据集

使用场景

这些句子可用于训练多语言句子嵌入模型。详细使用方法请参考SBERT.net - Multilingual-Model

使用限制

目前该数据集不能直接与Hugging Face数据集库一起使用,必须单独下载TSV文件。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作