five

Exqrch/IndonesianNMT

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Exqrch/IndonesianNMT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于论文《Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia》,包含两种类型的数据:单语(*.txt)和双语(*.tsv)。数据集涉及的语言包括印尼语(id)、爪哇语(jv)、巽他语(su)、巴厘语(ban)和米南加保语(min)。使用该数据集时需要引用指定的论文,并且遵循Creative Commons Attribution 4.0 International License (CC BY 4.0)许可。

该数据集用于论文《Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia》,包含两种类型的数据:单语(*.txt)和双语(*.tsv)。数据集涉及的语言包括印尼语(id)、爪哇语(jv)、巽他语(su)、巴厘语(ban)和米南加保语(min)。使用该数据集时需要引用指定的论文,并且遵循Creative Commons Attribution 4.0 International License (CC BY 4.0)许可。
提供机构:
Exqrch
原始信息汇总

数据集概述

任务类别

  • 翻译

语言

  • 印度尼西亚语系的低资源本地语言:
    • 印尼语 (id)
    • 爪哇语 (jv)
    • 巽他语 (su)
    • 巴厘语 (ban)
    • 米南加保语 (min)

数据类型

  1. 单语数据 (*.txt)
  2. 双语数据 (*.tsv)

引用信息

@misc{susanto2023replicable, title={Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia}, author={Lucky Susanto and Ryandito Diandaru and Adila Krisnadhi and Ayu Purwarianti and Derry Wijaya}, year={2023}, eprint={2311.00998}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作