wecover/OPUS
收藏数据集概述
任务类别
- 翻译
语言
- 非洲语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印度尼西亚语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
包含的语料库
- UNPC
- GlobalVoices
- TED2020
- News-Commentary
- WikiMatrix
- Tatoeba
- Europarl
- OpenSubtitles
数据样本
- 每个语言对从每个语料库中随机抽取25,000个样本(在最初的100,000个样本中),未对数据进行修改。
许可证
OPUS
@inproceedings{tiedemann2012parallel, title={Parallel data, tools and interfaces in OPUS.}, author={Tiedemann, J{"o}rg}, booktitle={Lrec}, volume={2012}, pages={2214--2218}, year={2012}, organization={Citeseer} }
Tatoeba
CC BY 2.0 FR
TED2020
CC BY–NC–ND 4.0
@inproceedings{reimers-2020-multilingual-sentence-bert, title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2020", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/2004.09813", }
WikiMatrix
CC-BY-SA 4.0
@article{schwenk2019wikimatrix, title={Wikimatrix: Mining 135m parallel sentences in 1620 language pairs from wikipedia}, author={Schwenk, Holger and Chaudhary, Vishrav and Sun, Shuo and Gong, Hongyu and Guzm{a}n, Francisco}, journal={arXiv preprint arXiv:1907.05791}, year={2019} }
UNPC
@inproceedings{ziemski2016united, title={The united nations parallel corpus v1. 0}, author={Ziemski, Micha{l} and Junczys-Dowmunt, Marcin and Pouliquen, Bruno}, booktitle={Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC16)}, pages={3530--3534}, year={2016} }




