xri/AlasNMT
收藏Hugging Face2025-02-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/xri/AlasNMT
下载链接
链接失效反馈官方服务:
资源简介:
AlasNMT是一个包含8000句英语、印尼语和Alas语的平行语料数据集,主要用于微调神经机器翻译模型和大型语言模型。Alas语是一种低资源的南岛语系语言,主要在苏门答腊岛北端的亚齐省使用。数据集通过XRI Global开发的专有方法创建和整理,确保在数据收集时覆盖概念空间。数据收集使用了移动数据收集应用Echonet和自定义翻译管理系统。数据集在文学和叙事文本领域表现最佳,但在技术、科学或口语领域表现较弱。贡献者通过当地机构雇佣,并获得了公平的报酬。
AlasNMT是一个包含8000句英语、印尼语和Alas语的平行语料数据集,主要用于微调神经机器翻译模型和大型语言模型。Alas语是一种低资源的南岛语系语言,主要在苏门答腊岛北端的亚齐省使用。数据集通过XRI Global开发的专有方法创建和整理,确保在数据收集时覆盖概念空间。数据收集使用了移动数据收集应用Echonet和自定义翻译管理系统。数据集在文学和叙事文本领域表现最佳,但在技术、科学或口语领域表现较弱。贡献者通过当地机构雇佣,并获得了公平的报酬。
提供机构:
xri
原始信息汇总
数据集概述
数据集名称
AlasNMT
数据集组成
- 包含8,000句子的平行语料库
- 语言:英语、印尼语、Alas语
数据集用途
- 用于微调神经机器翻译模型
- 用于大型语言模型在Alas语上的应用
语言背景
- Alas语是一种低资源南岛语系语言
- 使用人群:约200,000人,位于苏门答腊岛北部的亚齐省
数据集创建方法
- 采用XRI Global开发的专有方法
- 目的:以最快和最经济的方式收集低资源语言的纯净领域内数据
数据收集工具
- 使用移动数据收集应用Echonet
- 使用定制翻译管理系统
数据集适用领域
- 主要适用于文学和叙事文本
- 在技术、科学或口语等其他领域效果较差
贡献者信息
- 贡献者已提供适当同意
- 通过当地机构雇佣并公平补偿
许可证
- cc-by-sa-4.0
任务类别
- 翻译
语言
- 印尼语(id)
- 英语(en)
大小分类
- 1K<n<10K



