xezpeleta/ccmatrix

Name: xezpeleta/ccmatrix
Creator: xezpeleta
Published: 2024-02-19 07:56:12
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xezpeleta/ccmatrix

下载链接

链接失效反馈

官方服务：

资源简介：

CCMatrix v1数据集是从网络爬取的数据中提取的，使用了基于边缘的双语文本挖掘技术。该数据集支持90种语言，包含1,197个双语文本，总文件数为90，总标记数为112.14G，总句子片段数为7.37G。数据集主要用于文本生成和翻译任务。

提供机构：

xezpeleta

原始信息汇总

数据集卡片 for CCMatrix v1

数据集描述

数据集摘要

该语料库是从网络爬取数据中提取的，使用基于边缘的双语文本挖掘技术，具体描述见 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix。

90 种语言，1,197 个双语文本
总文件数：90
总词数：112.14G
总句子片段数：7.37G

支持的任务和排行榜

[更多信息待补充]

语言

配置文件为所有语言对生成了双向配置。你可以在数据集描述的主页部分找到有效的语言对：https://opus.nlpl.eu/CCMatrix.php 例如：

python from datasets import load_dataset dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)

这将打开 en-nl 数据集的流模式。不使用流模式时，下载和准备将需要数十分钟。你可以使用以下方式检查元素：

python print(next(iter(dataset[train])))

输出示例：

json { "id": 0, "score": 1.2499677, "translation": { "en": "They come from all parts of Egypt, just like they will at the day of His coming.", "nl": "Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen." } }

数据集结构

数据实例

例如：

json { "id": 1, "score": 1.2498379, "translation": { "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”", "en": "And we should call every truth false which was not accompanied by at least one laugh.”" } }

数据字段

每个示例包含一个从 0 开始的整数 id，一个分数，以及一个包含语言 1 和语言 2 文本的翻译字典。

数据分割

仅提供 train 分割。

数据集创建

策划理由

[更多信息待补充]

源数据

[更多信息待补充]

初始数据收集和规范化

[更多信息待补充]

源语言生产者是谁？

[更多信息待补充]

注释

[更多信息待补充]

注释过程

[更多信息待补充]

注释者是谁？

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策划者

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

请在使用此数据时引用以下文献：

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data by Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Jouli and Edouard Grave.
CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB by Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin.
Beyond English-Centric Multilingual Machine Translation by Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, and Armand Joulin.

此 HuggingFace CCMatrix 数据集是围绕 OPUS 准备和托管的服务和文件的包装：

Parallel Data, Tools and Interfaces in OPUS by Jörg Tiedemann.

贡献

[更多信息待补充]

5,000+

优质数据集

54 个

任务类型

进入经典数据集