xri/AlasNMT

Hugging Face2025-02-27 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/xri/AlasNMT

下载链接

链接失效反馈

官方服务：

资源简介：

AlasNMT是一个包含8000句英语、印尼语和Alas语的平行语料数据集，主要用于微调神经机器翻译模型和大型语言模型。Alas语是一种低资源的南岛语系语言，主要在苏门答腊岛北端的亚齐省使用。数据集通过XRI Global开发的专有方法创建和整理，确保在数据收集时覆盖概念空间。数据收集使用了移动数据收集应用Echonet和自定义翻译管理系统。数据集在文学和叙事文本领域表现最佳，但在技术、科学或口语领域表现较弱。贡献者通过当地机构雇佣，并获得了公平的报酬。

提供机构：

xri

原始信息汇总

数据集概述

数据集名称

AlasNMT

数据集组成

包含8,000句子的平行语料库
语言：英语、印尼语、Alas语

数据集用途

用于微调神经机器翻译模型
用于大型语言模型在Alas语上的应用

语言背景

Alas语是一种低资源南岛语系语言
使用人群：约200,000人，位于苏门答腊岛北部的亚齐省

数据集创建方法

采用XRI Global开发的专有方法
目的：以最快和最经济的方式收集低资源语言的纯净领域内数据

数据收集工具

使用移动数据收集应用Echonet
使用定制翻译管理系统

数据集适用领域

主要适用于文学和叙事文本
在技术、科学或口语等其他领域效果较差

贡献者信息

贡献者已提供适当同意
通过当地机构雇佣并公平补偿

许可证

cc-by-sa-4.0

任务类别

翻译

语言

印尼语（id）
英语（en）

大小分类

1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集