CLEAR-Global/Gamayun-kits
收藏Hugging Face2026-04-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CLEAR-Global/Gamayun-kits
下载链接
链接失效反馈官方服务:
资源简介:
Gamayun语言数据包是世界上7000多种语言中少数缺乏公开语言数据的语言的音频和文本语料库开发起点。通过翻译预编译的英语通用领域句子,为这些语言创建平行数据。数据集提供四种规模版本:5,000句的小型包(kit5k)、10,000句的小包(kit10k)、15,000句的中型包(kit15k)和30,000句的大型包(kit30k)。支持的语言包括Hausa、Kanuri、Nande、Rohingya、Swahili(沿海和刚果变体)等,语言对如Hausa-English、Kanuri-English等。数据来源于Tatoeba仓库,句子选择算法确保语言中最常用单词的代表性。翻译工作由TWB的翻译社区的专业人士和志愿者完成。
Gamayun Language Data Kits are a starting point for developing audio and text corpora for the more than 7,000 languages in the world that lack pre-existing public language data. Parallel data is created for a language by translating a pre-compiled set of general-domain sentences in English. The dataset offers four versions of varying sizes: a mini-kit of 5,000 sentences (kit5k), a small-kit of 10,000 sentences (kit10k), a medium-kit of 15,000 sentences (kit15k), and a large-kit of 30,000 sentences (kit30k). Supported languages include Hausa, Kanuri, Nande, Rohingya, Swahili (Coastal and Congolese variants), etc., with language pairs such as Hausa-English, Kanuri-English, etc. The data is sourced from the Tatoeba repository, with a sentence selection algorithm ensuring representation of the most frequently used words in the language. Translations are performed by professionals and volunteers from TWBs translator community.
提供机构:
CLEAR-Global
原始信息汇总
Gamayun Language Data Kits
数据集概述
Gamayun Language Data Kits 是由 CLEAR Global 创建的数据集,旨在为缺乏现有数据资源的语言开发音频和文本语料库。数据集通过将预编译的英语通用领域句子翻译成目标语言来创建平行数据。如果需要音频数据,这些翻译后的句子将由母语者录制。
数据集版本
数据集提供四种版本:
- Mini-kit:包含 5,000 个句子 (
kit5k) - Small-kit:包含 10,000 个句子 (
kit10k) - Medium-kit:包含 15,000 个句子 (
kit15k) - Large-kit:包含 30,000 个句子 (
kit30k)
源句子 (core)
core 目录中的句子为英语、法语和西班牙语,来源于 Tatoeba 仓库。句子选择算法确保了语言中最常用词汇的代表性。更多信息请参考 corepus-gen 仓库。etc 目录包含 Tatoeba 语料库中使用的句子 ID。
平行语料库 (parallel)
平行语料库的翻译由 TWB 的翻译社区的专业人士和志愿者完成。完整的翻译句子列表如下:
| 语言 | 配对语言 | 句子数量 | 来源 |
|---|---|---|---|
| Hausa | English | 15,000 | Tatoeba |
| Kanuri | English | 5,000 | Tatoeba |
| Nande | French | 15,000 | Tatoeba |
| Rohingya | English | 5,000 | Tatoeba |
| Swahili (Coastal) | English | 5,000 | Tatoeba |
| Swahili (Congolese) | French | 25,302 | Tatoeba |
引用信息
如需引用 Gamayun kits,请参考以下信息:
Alp Öktem, Muhannad Albayk Jaam, Eric DeLuca, Grace Tang Gamayun – Language Technology for Humanitarian Response In: 2020 IEEE Global Humanitarian Technology Conference (GHTC) 2020 October 29 - November 1; Virtual. Link: https://ieeexplore.ieee.org/document/9342939
搜集汇总
数据集介绍

构建方式
在语言资源稀缺的背景下,Gamayun-kits数据集通过系统化的构建策略,为缺乏公开数据的语言提供平行语料库。该数据集以英语、法语和西班牙语的通用领域句子为基础,这些句子源自Tatoeba语料库,并经过精心筛选以确保覆盖语言中的高频词汇。随后,由Translators without Borders社区的专业译者和志愿者将这些句子翻译成多种目标语言,从而形成高质量的平行文本对。整个构建过程注重语言多样性与数据代表性,为低资源语言的技术发展奠定了坚实基础。
特点
Gamayun-kits数据集展现出显著的多语言与模块化特征,涵盖豪萨语、卡努里语、林加拉语等十余种低资源语言,每种语言均提供不同规模的版本,从5,000句到30,000句不等,以满足多样化的研究需求。数据集中包含核心源语句子及其平行翻译,确保了文本在通用领域的广泛适用性。此外,该数据集支持音频语料库的扩展,通过母语者录音进一步丰富了语言资源的形态。这种结构化的设计使得数据集在推动语言公平与技术包容性方面具有重要价值。
使用方法
该数据集主要应用于机器翻译与多语言自然语言处理任务,研究人员可根据具体需求选择不同规模的版本进行模型训练与评估。使用前需仔细阅读许可文件,明确数据的使用条件与限制。在学术引用时,应参考提供的会议论文,以确保遵循规范的引用实践。对于音频语料库的获取,用户可通过官方Gamayun门户网站访问相关资源。通过合理利用这一数据集,能够有效促进低资源语言的技术发展与跨语言应用研究。
背景与挑战
背景概述
在自然语言处理领域,资源稀缺语言的数据匮乏长期制约着语言技术的普及与公平。由CLEAR Global于2020年推出的Gamayun-kits数据集,正是为了应对这一挑战而生。该数据集由Alp Öktem等研究人员主导,依托Translators without Borders社区的翻译志愿者与专业人士,通过将英语、法语等源语言的通用领域句子翻译成豪萨语、卡努里语等多种低资源语言,构建了高质量的平行语料库。其核心研究问题聚焦于如何为全球七千多种语言中缺乏公开数据的语种提供基础文本与音频资源,从而推动机器翻译、语音识别等技术在 humanitarian response 等关键场景中的应用,促进语言技术的包容性发展。
当前挑战
Gamayun-kits数据集旨在解决低资源语言机器翻译任务中的核心挑战,即缺乏大规模、高质量的平行训练数据。这一领域问题本身便面临语言形态多样性、语法结构差异显著以及可用双语专家稀少的难题。在数据集构建过程中,挑战同样突出:首先,从Tatoeba等开放资源中筛选出能够覆盖目标语言高频词汇的通用句子,需要精密的算法设计以确保语料的代表性;其次,依赖专业译者与志愿者进行人工翻译,在保证多语言译文准确性与一致性的同时,还需应对翻译流程的规模化与质量控制问题;此外,为部分语言配套开发音频语料时,母语者的招募与录音标准化亦是不可忽视的障碍。
常用场景
经典使用场景
在自然语言处理领域,Gamayun-kits数据集为资源稀缺语言的研究提供了关键支持。该数据集通过将英语和法语等源语言句子翻译成多种低资源语言,构建了高质量的平行语料库,广泛应用于机器翻译模型的训练与评估。研究者利用这些平行文本,能够有效提升语言模型的跨语言理解能力,尤其在处理豪萨语、卡努里语等语言时,显著改善了翻译的准确性和流畅性。
实际应用
在实际应用中,Gamayun-kits数据集被广泛部署于人道主义响应和本地化服务场景。例如,在危机沟通、公共卫生信息传播等领域,该数据集支撑的翻译系统能够快速将关键内容转化为当地语言,提升信息可达性。同时,它也为教育科技、内容本地化产业提供了可靠的语言资源,助力跨越数字鸿沟。
衍生相关工作
基于Gamayun-kits数据集,衍生了一系列经典研究工作。例如,在IEEE全球人道主义技术会议上发表的论文系统阐述了该数据集在语言技术助力人道响应中的应用框架。后续研究多聚焦于利用这些平行语料优化低资源神经机器翻译模型,或结合音频数据开发多模态语言工具,持续拓展了资源稀缺语言的技术前沿。
以上内容由遇见数据集搜集并总结生成



