xezpeleta/ccmatrix
收藏数据集卡片 for CCMatrix v1
数据集描述
数据集摘要
该语料库是从网络爬取数据中提取的,使用基于边缘的双语文本挖掘技术,具体描述见 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix。
- 90 种语言,1,197 个双语文本
- 总文件数:90
- 总词数:112.14G
- 总句子片段数:7.37G
支持的任务和排行榜
[更多信息待补充]
语言
配置文件为所有语言对生成了双向配置。 你可以在数据集描述的主页部分找到有效的语言对:https://opus.nlpl.eu/CCMatrix.php 例如:
python from datasets import load_dataset dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)
这将打开 en-nl 数据集的流模式。不使用流模式时,下载和准备将需要数十分钟。
你可以使用以下方式检查元素:
python print(next(iter(dataset[train])))
输出示例:
json { "id": 0, "score": 1.2499677, "translation": { "en": "They come from all parts of Egypt, just like they will at the day of His coming.", "nl": "Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen." } }
数据集结构
数据实例
例如:
json { "id": 1, "score": 1.2498379, "translation": { "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”", "en": "And we should call every truth false which was not accompanied by at least one laugh.”" } }
数据字段
每个示例包含一个从 0 开始的整数 id,一个分数,以及一个包含语言 1 和语言 2 文本的翻译字典。
数据分割
仅提供 train 分割。
数据集创建
策划理由
[更多信息待补充]
源数据
[更多信息待补充]
初始数据收集和规范化
[更多信息待补充]
源语言生产者是谁?
[更多信息待补充]
注释
[更多信息待补充]
注释过程
[更多信息待补充]
注释者是谁?
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策划者
[更多信息待补充]
许可信息
[更多信息待补充]
引用信息
请在使用此数据时引用以下文献:
- CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data by Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Jouli and Edouard Grave.
- CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB by Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin.
- Beyond English-Centric Multilingual Machine Translation by Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, and Armand Joulin.
此 HuggingFace CCMatrix 数据集是围绕 OPUS 准备和托管的服务和文件的包装:
- Parallel Data, Tools and Interfaces in OPUS by Jörg Tiedemann.
贡献
[更多信息待补充]



