five

SEACrowd/nusax_mt

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/nusax_mt
下载链接
链接失效反馈
官方服务:
资源简介:
NusaX-MT是一个高质量的多种语言平行语料库,涵盖了12种语言,包括印尼语、英语以及10种印尼地方语言,即亚齐语、巴厘语、班贾尔语、布吉语、马都拉语、米南加保语、爪哇语、恩加朱语、巽他语和托巴巴塔克语。该数据集用于训练和评估跨10种印尼地方语言、印尼语和英语的机器翻译模型。数据以CSV格式呈现,包含12列,每列对应一种语言。

NusaX-MT是一个高质量的多种语言平行语料库,涵盖了12种语言,包括印尼语、英语以及10种印尼地方语言,即亚齐语、巴厘语、班贾尔语、布吉语、马都拉语、米南加保语、爪哇语、恩加朱语、巽他语和托巴巴塔克语。该数据集用于训练和评估跨10种印尼地方语言、印尼语和英语的机器翻译模型。数据以CSV格式呈现,包含12列,每列对应一种语言。
提供机构:
SEACrowd
原始信息汇总

数据集概述

NusaX是一个高质量的多语言平行语料库,涵盖12种语言,包括印尼语、英语以及10种印尼地方语言,即亚齐语、巴厘语、班查尔语、布吉语、马都拉语、米南加保语、爪哇语、恩加朱语、巽他语和托巴巴塔克语。

语言

  • 印尼语 (ind)
  • 亚齐语 (ace)
  • 巴厘语 (ban)
  • 班查尔语 (bjn)
  • 布吉语 (bbc)
  • 布吉语 (bug)
  • 爪哇语 (jav)
  • 马都拉语 (mad)
  • 米南加保语 (min)
  • 恩加朱语 (nij)
  • 巽他语 (sun)
  • 英语 (eng)

支持的任务

  • 机器翻译

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

数据集许可证

  • Creative Commons Attribution Share-Alike 4.0 International

引用

@misc{winata2022nusax, title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages}, author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya, Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony, Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo, Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau, Jey Han and Sennrich, Rico and Ruder, Sebastian}, year={2022}, eprint={2205.15960}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
在东南亚语言资源稀缺的背景下,NusaX-MT数据集通过精心构建,汇集了印度尼西亚语、英语及十种印尼本土语言的平行语料。该数据集采用系统化的数据收集与对齐流程,确保各语言对之间的句子级对应关系准确无误。数据以CSV格式呈现,包含十二个独立列,每列对应一种语言,便于机器翻译模型的训练与评估。
特点
NusaX-MT数据集以其多语言覆盖的广度与数据质量的高度著称,涵盖了包括亚齐语、巴厘语、班贾尔语等十种印尼本土语言,以及印度尼西亚语和英语。该数据集为低资源语言机器翻译研究提供了标准化基准,支持跨语言翻译任务的全面性能评测。其结构清晰,语言对丰富,为自然语言处理领域的多语言模型开发奠定了坚实基础。
使用方法
利用该数据集时,研究人员可通过`datasets`库直接加载,或使用专为东南亚语言设计的`seacrowd`库进行访问。加载过程支持多种配置选项,用户可根据具体需求选择相应的语言子集。数据加载后,可直接应用于机器翻译模型的训练、微调及跨语言性能评估,为促进印尼本土语言的技术应用提供便捷工具。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的机器翻译一直是亟待突破的研究前沿。NusaX-MT数据集由IndoNLP团队于2022年创建,其核心研究问题聚焦于构建涵盖印尼语、英语及十种印尼本土语言的高质量多语言平行语料库。该数据集不仅填补了东南亚语言资源匮乏的空白,更为跨语言模型训练与评估提供了标准化基准,显著推动了区域语言技术的公平发展与学术探索。
当前挑战
NusaX-MT数据集致力于解决低资源语言机器翻译的领域挑战,包括语言形态复杂性高、平行数据稀缺以及翻译质量评估标准缺失等问题。在构建过程中,研究人员面临本土语言方言变体处理、文化特定表达对齐以及多语言标注一致性维护等实际困难,这些挑战共同制约了模型在真实场景中的泛化能力与鲁棒性。
常用场景
经典使用场景
在自然语言处理领域,多语言机器翻译模型的训练与评估一直是研究热点。NusaX-MT数据集以其涵盖12种语言的高质量平行语料库,为研究者提供了宝贵的资源。该数据集特别聚焦于印度尼西亚语、英语及10种印度尼西亚地方语言,如爪哇语、巽他语等,使得模型能够在低资源语言环境下进行有效学习与性能基准测试。通过提供结构化的csv格式数据,研究者可以便捷地构建跨语言翻译系统,推动多语言人工智能技术的发展。
衍生相关工作
围绕NusaX-MT数据集,已衍生出多项经典研究工作。例如,基于该数据集的低资源语言机器翻译模型优化方法,如利用多任务学习与跨语言预训练技术,显著提升了翻译质量。同时,研究者还开发了针对印度尼西亚地方语言的评估基准,推动了SEACrowd等多语言数据枢纽项目的发展。这些工作不仅丰富了多语言自然语言处理的研究生态,也为后续在语言多样性保护、区域人工智能应用等领域的探索奠定了坚实基础。
数据集最近研究
最新研究方向
在低资源语言机器翻译领域,NusaX-MT数据集为印尼本土语言提供了关键支持,推动了多语言模型的前沿探索。当前研究聚焦于利用该数据集训练跨语言表示,以增强模型在语言多样性环境下的泛化能力,特别是在处理语法结构和词汇差异显著的印尼地方语言时。热点事件包括结合大语言模型进行少样本学习,以应对数据稀缺挑战,同时关注公平性与包容性,确保技术发展惠及边缘语言社区。这些进展不仅深化了对语言复杂性的理解,也为全球多语言技术应用奠定了实证基础,具有重要的学术与社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作