five

xezpeleta/ccmatrix

收藏
Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xezpeleta/ccmatrix
下载链接
链接失效反馈
官方服务:
资源简介:
CCMatrix v1数据集是从网络爬取的数据中提取的,使用了基于边缘的双语文本挖掘技术。该数据集支持90种语言,包含1,197个双语文本,总文件数为90,总标记数为112.14G,总句子片段数为7.37G。数据集主要用于文本生成和翻译任务。

CCMatrix v1数据集是从网络爬取的数据中提取的,使用了基于边缘的双语文本挖掘技术。该数据集支持90种语言,包含1,197个双语文本,总文件数为90,总标记数为112.14G,总句子片段数为7.37G。数据集主要用于文本生成和翻译任务。
提供机构:
xezpeleta
原始信息汇总

数据集卡片 for CCMatrix v1

数据集描述

数据集摘要

该语料库是从网络爬取数据中提取的,使用基于边缘的双语文本挖掘技术,具体描述见 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix。

  • 90 种语言,1,197 个双语文本
  • 总文件数:90
  • 总词数:112.14G
  • 总句子片段数:7.37G

支持的任务和排行榜

[更多信息待补充]

语言

配置文件为所有语言对生成了双向配置。 你可以在数据集描述的主页部分找到有效的语言对:https://opus.nlpl.eu/CCMatrix.php 例如:

python from datasets import load_dataset dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)

这将打开 en-nl 数据集的流模式。不使用流模式时,下载和准备将需要数十分钟。 你可以使用以下方式检查元素:

python print(next(iter(dataset[train])))

输出示例:

json { "id": 0, "score": 1.2499677, "translation": { "en": "They come from all parts of Egypt, just like they will at the day of His coming.", "nl": "Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen." } }

数据集结构

数据实例

例如:

json { "id": 1, "score": 1.2498379, "translation": { "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”", "en": "And we should call every truth false which was not accompanied by at least one laugh.”" } }

数据字段

每个示例包含一个从 0 开始的整数 id,一个分数,以及一个包含语言 1 和语言 2 文本的翻译字典。

数据分割

仅提供 train 分割。

数据集创建

策划理由

[更多信息待补充]

源数据

[更多信息待补充]

初始数据收集和规范化

[更多信息待补充]

源语言生产者是谁?

[更多信息待补充]

注释

[更多信息待补充]

注释过程

[更多信息待补充]

注释者是谁?

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策划者

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

请在使用此数据时引用以下文献:

  1. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data by Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Jouli and Edouard Grave.
  2. CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB by Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin.
  3. Beyond English-Centric Multilingual Machine Translation by Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, and Armand Joulin.

此 HuggingFace CCMatrix 数据集是围绕 OPUS 准备和托管的服务和文件的包装:

贡献

[更多信息待补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作