wecover/OPUS

Name: wecover/OPUS
Creator: wecover
Published: 2024-05-23 09:15:01
License: 暂无描述

Hugging Face2024-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wecover/OPUS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要来源于OPUS平台，包含了多个语料库，如UNPC、GlobalVoices、TED2020、News-Commentary、WikiMatrix、Tatoeba、Europarl和OpenSubtitles。每个语料库的每个语言对随机抽取了25,000个样本，数据未经修改。数据集涵盖了多种语言，包括但不限于非洲语、阿拉伯语、中文、英语、法语、德语、日语等。

This dataset is primarily sourced from the OPUS platform, encompassing multiple parallel corpora including UNPC, GlobalVoices, TED2020, News-Commentary, WikiMatrix, Tatoeba, Europarl, and OpenSubtitles. For each language pair within every corpus, 25,000 samples were randomly selected, and the original data remains unmodified. The dataset covers a diverse set of languages, including but not limited to African languages, Arabic, Chinese, English, French, German, Japanese, and others.

提供机构：

wecover

原始信息汇总

数据集概述

任务类别

翻译

语言

非洲语
阿姆哈拉语
阿拉伯语
阿萨姆语
阿塞拜疆语
白俄罗斯语
保加利亚语
孟加拉语
布列塔尼语
波斯尼亚语
加泰罗尼亚语
捷克语
威尔士语
丹麦语
德语
希腊语
英语
世界语
西班牙语
爱沙尼亚语
巴斯克语
波斯语
芬兰语
法语
弗里斯兰语
爱尔兰语
苏格兰盖尔语
加利西亚语
豪萨语
希伯来语
印地语
克罗地亚语
匈牙利语
亚美尼亚语
印度尼西亚语
冰岛语
意大利语
日语
爪哇语
格鲁吉亚语
哈萨克语
高棉语
卡纳达语
韩语
库尔德语
吉尔吉斯语
拉丁语
老挝语
立陶宛语
马尔加什语
马其顿语
马拉雅拉姆语
蒙古语
马拉地语
马来语
缅甸语
尼泊尔语
荷兰语
挪威语
奥罗莫语
奥里亚语
旁遮普语
波兰语
普什图语
葡萄牙语
罗马尼亚语
俄语
梵语
信德语
僧伽罗语
斯洛伐克语
斯洛文尼亚语
索马里语
阿尔巴尼亚语
塞尔维亚语
巽他语
瑞典语
斯瓦希里语
泰米尔语
泰卢固语
泰语
他加禄语
土耳其语
维吾尔语
乌克兰语
乌尔都语
乌兹别克语
越南语
科萨语
意第绪语
中文

包含的语料库

UNPC
GlobalVoices
TED2020
News-Commentary
WikiMatrix
Tatoeba
Europarl
OpenSubtitles

数据样本

每个语言对从每个语料库中随机抽取25,000个样本（在最初的100,000个样本中），未对数据进行修改。

许可证

OPUS

@inproceedings{tiedemann2012parallel, title={Parallel data, tools and interfaces in OPUS.}, author={Tiedemann, J{"o}rg}, booktitle={Lrec}, volume={2012}, pages={2214--2218}, year={2012}, organization={Citeseer} }

Tatoeba

CC BY 2.0 FR

TED2020

CC BY–NC–ND 4.0

@inproceedings{reimers-2020-multilingual-sentence-bert, title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2020", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/2004.09813", }

WikiMatrix

CC-BY-SA 4.0

@article{schwenk2019wikimatrix, title={Wikimatrix: Mining 135m parallel sentences in 1620 language pairs from wikipedia}, author={Schwenk, Holger and Chaudhary, Vishrav and Sun, Shuo and Gong, Hongyu and Guzm{a}n, Francisco}, journal={arXiv preprint arXiv:1907.05791}, year={2019} }

UNPC

@inproceedings{ziemski2016united, title={The united nations parallel corpus v1. 0}, author={Ziemski, Micha{l} and Junczys-Dowmunt, Marcin and Pouliquen, Bruno}, booktitle={Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC16)}, pages={3530--3534}, year={2016} }

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个大规模多语言平行语料库，包含来自多个来源的平行句子对，支持90多种语言，主要用于翻译任务。数据集规模庞大，总行数超过9800万，以parquet格式存储，并包含训练、验证和测试子集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集