SEACrowd/wikimatrix

Name: SEACrowd/wikimatrix
Creator: SEACrowd
Published: 2024-06-24 13:24:20
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/wikimatrix

下载链接

链接失效反馈

官方服务：

资源简介：

WikiMatrix数据集是从96种语言的维基百科文章中自动提取的平行句子，特别关注东南亚地区的8种语言。该数据集主要用于机器翻译任务，包含135M平行句子，涉及1620种不同的语言对。数据集的使用可以通过`datasets`库或`seacrowd`库进行加载。

WikiMatrix is a dataset of automatically extracted parallel sentences from Wikipedia articles in 96 languages, with a focus on 8 languages spoken in the Southeast Asia region. The dataset is primarily used for machine translation tasks and contains 135M parallel sentences across 1620 different language pairs. The dataset can be loaded using the `datasets` library or the `seacrowd` library.

提供机构：

SEACrowd

原始信息汇总

Wikimatrix 数据集概述

基本信息

名称: Wikimatrix
许可证: Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0)
语言: ilo, min, jav, sun, ceb, ind, tgl, vie 等96种语言，包括多种方言和低资源语言。
任务类别: 机器翻译
标签: 机器翻译

数据集详情

语言对数量: 1620种不同的语言对
平行句子数量: 135M
区域: 8种语言来自东南亚地区

支持的任务

机器翻译

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

引用

Wikimatrix:

@inproceedings{schwenk-etal-2021-wikimatrix, title = "{W}iki{M}atrix: Mining 135{M} Parallel Sentences in 1620 Language Pairs from {W}ikipedia", author = "Schwenk, Holger and Chaudhary, Vishrav and Sun, Shuo and Gong, Hongyu and Guzm{a}n, Francisco", editor = "Merlo, Paola and Tiedemann, Jorg and Tsarfaty, Reut", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume", month = apr, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.eacl-main.115", doi = "10.18653/v1/2021.eacl-main.115", pages = "1351--1361", }
SEACrowd:

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，构建高质量平行语料库是推动机器翻译技术发展的关键。WikiMatrix数据集通过创新的多语言句子嵌入方法，从涵盖96种语言的维基百科文章中自动抽取平行句对。该方法突破了传统以英语为中心的对齐模式，系统性地考察了所有可能的语言组合，从而在1620种语言对中挖掘出总计1.35亿句平行文本，其中仅3400万句与英语对齐。这一构建过程充分利用了维基百科多语言内容的互译特性，为包括多种方言和低资源语言在内的广泛语言提供了大规模、自动生成的翻译资源。

特点

WikiMatrix数据集显著特点在于其广泛的语种覆盖与丰富的语言对组合。该数据集特别收录了八种东南亚地区语言，如伊洛卡诺语、米南加保语、爪哇语等，为区域语言研究提供了宝贵资源。其语料规模庞大，涵盖超过1600种语言对，尤其注重非英语语言间的直接对齐，有效支持了远距离语言对的机器翻译模型训练，无需借助英语作为中间枢纽。这种设计显著提升了数据集的多样性与实用性，使其成为多语言机器翻译任务中一个极具价值的基准资源。

使用方法

为便于研究人员使用，WikiMatrix数据集提供了灵活的加载方式。用户可通过标准的`datasets`库，调用`load_dataset`函数并指定数据集名称进行加载。同时，针对东南亚语言研究社区，也可利用专门的`seacrowd`库进行访问，该库支持通过`schema`参数或具体配置名称来加载数据集的不同子集。加载后，数据集可直接应用于机器翻译模型的训练与评估，为低资源语言翻译、多语言模型预训练等任务提供大规模、高质量的双语对照文本，助力跨语言自然语言处理技术的进步。

背景与挑战

背景概述

WikiMatrix数据集由Facebook Research团队于2021年发布，旨在通过多语言句子嵌入技术，从维基百科文章中自动提取平行句对，覆盖96种语言，其中包括多种方言及低资源语言。该数据集的核心研究问题在于解决传统机器翻译数据集中对英语中心化依赖的局限，通过系统性地考虑所有可能的语言对，构建了涵盖1620种语言组合的庞大平行语料库。其创新性在于为远距离语言对的机器翻译模型训练提供了直接对齐的数据支持，显著推动了多语言自然语言处理领域的发展，尤其对东南亚等地区的低资源语言研究产生了深远影响。

当前挑战

WikiMatrix数据集面临的挑战主要体现在两个方面：在领域问题层面，其致力于解决低资源语言机器翻译中数据稀缺与质量不均衡的难题，如何从非结构化多语言文本中准确提取并对齐高质量平行句对，尤其是在语言形态、句法结构差异显著的远距离语言对之间，成为模型性能提升的关键瓶颈。在构建过程层面，自动提取方法需克服维基百科内容噪声、跨语言语义对齐的模糊性以及低资源语言标注资源匮乏等障碍，确保提取句对的精确性与可用性，同时维持大规模语料库的覆盖广度与语言多样性之间的平衡。

常用场景

经典使用场景

在机器翻译领域，WikiMatrix数据集以其自动从维基百科文章中提取的平行句对而著称，尤其关注东南亚地区的低资源语言。该数据集覆盖了包括伊洛卡诺语、米南加保语、爪哇语等在内的八种东南亚语言，提供了超过1.35亿句平行文本，跨越1620种语言对。研究者常利用这些大规模、多语言的平行语料，训练和评估神经机器翻译模型，特别是在缺乏传统双语资源的语言对上，有效促进了跨语言信息传递的技术发展。

实际应用

在实际应用中，WikiMatrix数据集被广泛用于构建和优化多语言机器翻译系统，特别是在东南亚地区的语言服务中。例如，它可以支持在线翻译平台、跨语言信息检索系统以及本地化内容生成工具，帮助用户突破语言障碍，获取维基百科等知识库中的信息。此外，该数据集还为政府、教育机构和非营利组织提供了语言技术基础设施，促进了区域间的文化交流与数字包容。

衍生相关工作

基于WikiMatrix数据集，学术界衍生了一系列经典研究工作，主要集中在低资源机器翻译和多语言表示学习领域。例如，研究者利用该数据集训练了无需英语枢纽的神经机器翻译基线系统，并在TED语料上评估其性能，取得了显著的BLEU分数提升。这些工作不仅验证了数据集的质量，还推动了如LASER等多语言句子嵌入技术的发展，为后续的跨语言任务提供了重要的模型和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集