five

xri/GayoNMT

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/xri/GayoNMT
下载链接
链接失效反馈
官方服务:
资源简介:
GayoNMT是一个包含8000句英语、印尼语和Gayo语的平行数据集,主要用于微调神经机器翻译模型和大型语言模型。Gayo语是一种在苏门答腊岛北端亚齐省使用的低资源南岛语系语言,约有275,000人使用。数据集由XRI Global开发的一种专有方法创建和整理,确保在数据收集时覆盖概念空间。数据收集使用了移动数据收集应用Echonet和自定义翻译管理系统。数据集在文学和叙事文本领域最为有效,但在技术、科学或口语领域能力较弱。

GayoNMT是一个包含8000句英语、印尼语和Gayo语的平行数据集,主要用于微调神经机器翻译模型和大型语言模型。Gayo语是一种在苏门答腊岛北端亚齐省使用的低资源南岛语系语言,约有275,000人使用。数据集由XRI Global开发的一种专有方法创建和整理,确保在数据收集时覆盖概念空间。数据收集使用了移动数据收集应用Echonet和自定义翻译管理系统。数据集在文学和叙事文本领域最为有效,但在技术、科学或口语领域能力较弱。
提供机构:
xri
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 任务类别: 翻译
  • 语言:
    • 印尼语 (id)
    • 英语 (en)
    • Gayo
  • 数据集大小: 1K<n<10K

数据集描述

  • 组成: 包含8,000句子的平行语料库,涉及英语、印尼语和Gayo语。
  • 用途: 用于微调神经机器翻译模型和大型语言模型,特别是针对Gayo语。
  • 语言背景: Gayo是一种低资源的南岛语系语言,约有275,000人使用,主要分布在苏门答腊岛北部的亚齐省。
  • 数据收集方法: 采用XRI Global开发的专有方法,确保数据收集时概念空间的覆盖,旨在为低资源语言创建最快和最经济的数据收集方式,优化用于语言模型的微调。
  • 数据收集工具: 使用移动数据收集应用Echonet和定制的翻译管理系统。
  • 适用领域: 主要适用于文学和叙事文本,其他领域如技术、科学或口语化文本效果较差。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作