yhavinga/ccmatrix

Name: yhavinga/ccmatrix
Creator: yhavinga
Published: 2024-03-14 08:43:02
License: 暂无描述

Hugging Face2024-03-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yhavinga/ccmatrix

下载链接

链接失效反馈

官方服务：

资源简介：

CCMatrix v1数据集是一个多语言的平行语料库，包含90种语言和1,197个双语对。该数据集通过基于边缘的双语挖掘技术从网络爬取数据中提取，总文件数为90，总词数为112.14G，总句子片段数为7.37G。数据集主要用于文本生成和翻译任务。每个数据实例包含一个整数ID、一个分数和一个包含两种语言文本的翻译字典。数据集仅提供训练集。

The CCMatrix v1 dataset is a multilingual parallel corpus encompassing 90 languages and 1,197 bilingual language pairs. Extracted from web-crawled data via edge-based bilingual mining techniques, the dataset contains a total of 90 files, with a total word count of 112.14 G and 7.37 G of sentence segments. It is primarily utilized for text generation and machine translation tasks. Each data instance comprises an integer ID, a score, and a translation dictionary holding texts in the two respective languages. Only the training split is made available for this dataset.

提供机构：

yhavinga

原始信息汇总