five

wecover/OPUS

收藏
Hugging Face2024-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wecover/OPUS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要来源于OPUS平台,包含了多个语料库,如UNPC、GlobalVoices、TED2020、News-Commentary、WikiMatrix、Tatoeba、Europarl和OpenSubtitles。每个语料库的每个语言对随机抽取了25,000个样本,数据未经修改。数据集涵盖了多种语言,包括但不限于非洲语、阿拉伯语、中文、英语、法语、德语、日语等。

This dataset is primarily sourced from the OPUS platform, encompassing multiple parallel corpora including UNPC, GlobalVoices, TED2020, News-Commentary, WikiMatrix, Tatoeba, Europarl, and OpenSubtitles. For each language pair within every corpus, 25,000 samples were randomly selected, and the original data remains unmodified. The dataset covers a diverse set of languages, including but not limited to African languages, Arabic, Chinese, English, French, German, Japanese, and others.
提供机构:
wecover
原始信息汇总

数据集概述

任务类别

  • 翻译

语言

  • 非洲语
  • 阿姆哈拉语
  • 阿拉伯语
  • 阿萨姆语
  • 阿塞拜疆语
  • 白俄罗斯语
  • 保加利亚语
  • 孟加拉语
  • 布列塔尼语
  • 波斯尼亚语
  • 加泰罗尼亚语
  • 捷克语
  • 威尔士语
  • 丹麦语
  • 德语
  • 希腊语
  • 英语
  • 世界语
  • 西班牙语
  • 爱沙尼亚语
  • 巴斯克语
  • 波斯语
  • 芬兰语
  • 法语
  • 弗里斯兰语
  • 爱尔兰语
  • 苏格兰盖尔语
  • 加利西亚语
  • 豪萨语
  • 希伯来语
  • 印地语
  • 克罗地亚语
  • 匈牙利语
  • 亚美尼亚语
  • 印度尼西亚语
  • 冰岛语
  • 意大利语
  • 日语
  • 爪哇语
  • 格鲁吉亚语
  • 哈萨克语
  • 高棉语
  • 卡纳达语
  • 韩语
  • 库尔德语
  • 吉尔吉斯语
  • 拉丁语
  • 老挝语
  • 立陶宛语
  • 马尔加什语
  • 马其顿语
  • 马拉雅拉姆语
  • 蒙古语
  • 马拉地语
  • 马来语
  • 缅甸语
  • 尼泊尔语
  • 荷兰语
  • 挪威语
  • 奥罗莫语
  • 奥里亚语
  • 旁遮普语
  • 波兰语
  • 普什图语
  • 葡萄牙语
  • 罗马尼亚语
  • 俄语
  • 梵语
  • 信德语
  • 僧伽罗语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 索马里语
  • 阿尔巴尼亚语
  • 塞尔维亚语
  • 巽他语
  • 瑞典语
  • 斯瓦希里语
  • 泰米尔语
  • 泰卢固语
  • 泰语
  • 他加禄语
  • 土耳其语
  • 维吾尔语
  • 乌克兰语
  • 乌尔都语
  • 乌兹别克语
  • 越南语
  • 科萨语
  • 意第绪语
  • 中文

包含的语料库

  • UNPC
  • GlobalVoices
  • TED2020
  • News-Commentary
  • WikiMatrix
  • Tatoeba
  • Europarl
  • OpenSubtitles

数据样本

  • 每个语言对从每个语料库中随机抽取25,000个样本(在最初的100,000个样本中),未对数据进行修改。

许可证

OPUS

@inproceedings{tiedemann2012parallel, title={Parallel data, tools and interfaces in OPUS.}, author={Tiedemann, J{"o}rg}, booktitle={Lrec}, volume={2012}, pages={2214--2218}, year={2012}, organization={Citeseer} }

Tatoeba

CC BY 2.0 FR

TED2020

CC BY–NC–ND 4.0

@inproceedings{reimers-2020-multilingual-sentence-bert, title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2020", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/2004.09813", }

WikiMatrix

CC-BY-SA 4.0

@article{schwenk2019wikimatrix, title={Wikimatrix: Mining 135m parallel sentences in 1620 language pairs from wikipedia}, author={Schwenk, Holger and Chaudhary, Vishrav and Sun, Shuo and Gong, Hongyu and Guzm{a}n, Francisco}, journal={arXiv preprint arXiv:1907.05791}, year={2019} }

UNPC

@inproceedings{ziemski2016united, title={The united nations parallel corpus v1. 0}, author={Ziemski, Micha{l} and Junczys-Dowmunt, Marcin and Pouliquen, Bruno}, booktitle={Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC16)}, pages={3530--3534}, year={2016} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个大规模多语言平行语料库,包含来自多个来源的平行句子对,支持90多种语言,主要用于翻译任务。数据集规模庞大,总行数超过9800万,以parquet格式存储,并包含训练、验证和测试子集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作