five

SATOS

收藏
arXiv2020-04-01 更新2024-06-21 收录
下载链接:
https://github.com/surafelml/Afro-NMT
下载链接
链接失效反馈
官方服务:
资源简介:
SATOS数据集是由特伦托大学和布鲁诺凯斯勒基金会联合创建,旨在为五种非洲低资源语言(Swahili, Amharic, Tigrigna, Oromo, Somali)与英语之间的神经机器翻译提供基准。该数据集包含从Opus语料库中收集的平行数据,包括JW300、圣经、Tanzil和Ted演讲等资源。创建过程中,数据被分割并标准化处理,以支持多领域测试。SATOS数据集的应用领域主要集中在低资源语言的机器翻译研究,旨在解决这些语言在数字化社会、经济和政治领域中的沟通障碍。

The SATOS Dataset was jointly created by the University of Trento and the Bruno Kessler Foundation, aiming to provide benchmarks for neural machine translation between five low-resource African languages (Swahili, Amharic, Tigrigna, Oromo, Somali) and English. This dataset contains parallel corpora collected from the Opus corpus, including resources such as JW300, the Bible, Tanzil, and TED Talks. During its development, the data was split and standardized to support multi-domain testing. The SATOS Dataset is primarily applied in machine translation research for low-resource languages, with the goal of addressing communication barriers faced by these languages in digital social, economic, and political spheres.
提供机构:
特伦托大学, 特伦托, 意大利 + 布鲁诺凯斯勒基金会, 特伦托, 意大利
创建时间:
2020-04-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作