xri/BatakTobaNMT

Hugging Face2025-02-27 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/xri/BatakTobaNMT

下载链接

链接失效反馈

官方服务：

资源简介：

BatakTobaNMT是一个由8000个英文、印度尼西亚语和Batak Toba语句子组成的平行语料库。该数据集旨在用于微调Batak Toba语的神经机器翻译模型和大型语言模型。Batak Toba是一种低资源马来-波利尼西亚语系语言，由苏门答腊岛上的约410万人使用。该数据集采用XRI Global开发的专有方法创建和整理，以确保数据收集的概念空间覆盖。此方法旨在为低资源语言创建最快、最经济的领域内纯净数据收集方式，以优化语言模型的微调。贡献者已经给予适当同意，由当地机构雇佣，并获得公平报酬。数据收集使用了Echonet移动数据收集应用程序和自定义翻译管理系统。该数据集的领域较为泛化，最适合文学和叙事文本，而在技术、科学或口语等其他领域则效果不佳。

BatakTobaNMT is a parallel dataset composed of 8,000 sentences in English, Indonesian, and Batak Toba. It is intended for fine-tuning Neural Machine Translation models and Large Language Models for the Batak Toba language, which is a low-resource Austronesian language spoken by about 4,100,000 people on the island of Sumatra. The dataset was created and curated using a proprietary method developed by XRI Global to ensure coverage of a conceptual space during data collection. This method is designed to be the fastest and most cost-effective way to collect pristine in-domain data for low-resource languages optimized for fine-tuning language models. The contributors provided proper consent, were hired by a local agency, and were fairly compensated. Data collection utilized our mobile data collection app, Echonet, and a custom translation management system. The domain is somewhat generalized, and the dataset is most effective for literary and narrative texts, less so for other domains such as technical, scientific, or colloquial.

提供机构：

xri

原始信息汇总

数据集概述

基本信息

名称: BatakTobaNMT
许可证: CC-BY-NC-SA-4.0
任务类别: 翻译
语言: 英语 (en), 印度尼西亚语 (id), Batak Toba
数据集大小: 1K<n<10K

描述

内容: 包含8,000句子的平行语料，涵盖英语、印度尼西亚语和Batak Toba语言。
用途: 用于微调神经机器翻译模型和大语言模型，特别是针对Batak Toba语言。
语言背景: Batak Toba是一种低资源南岛语系语言，约有4,100,000人使用，主要分布在苏门答腊岛。

数据收集与处理

方法: 使用XRI Global开发的专有方法，确保数据收集时覆盖概念空间。
工具: 使用移动数据收集应用Echonet和定制的翻译管理系统。
贡献者: 贡献者经过适当同意，由当地机构雇佣并公平补偿。

适用领域

主要领域: 文学和叙事文本
其他领域: 在技术、科学或口语领域的能力较弱

联系方式

联系邮箱: contact@xriglobal.ai

5,000+

优质数据集

54 个

任务类型

进入经典数据集