five

somosnlp-hackathon-2022/Axolotl-Spanish-Nahuatl

收藏
Hugging Face2023-04-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/Axolotl-Spanish-Nahuatl
下载链接
链接失效反馈
官方服务:
资源简介:
Axolotl Spanish-Nahuatl平行语料库是一个数字语料库,汇集了多种来源的西班牙语和纳瓦特尔语平行文本。平行语料库是一种包含源语言文本及其在一种或多种目标语言中的对应翻译的语料库。该语料库由墨西哥国立自治大学(UNAM)的专家团队创建,旨在支持西班牙语和纳瓦特尔语之间的机器翻译任务。数据集来源于Axolotl和Bible UEDIN Nahuatl Spanish语料库,经过清理和去重后,最终包含20,028个样本。数据集的应用包括使用T5模型进行西班牙语到纳瓦特尔语的翻译任务。
提供机构:
somosnlp-hackathon-2022
原始信息汇总

Axolotl-Spanish-Nahuatl 数据集概述

数据集描述

  • 名称: Axolotl Spanish-Nahuatl 平行语料库
  • 类型: 平行语料库,包含西班牙语和纳瓦特尔语的平行文本
  • 语言:
    • 源语言: 西班牙语 (es)
    • 目标语言: 纳瓦特尔语
  • 许可证: MPL-2.0
  • 多语言性: 翻译
  • 任务类别:
    • 文本到文本生成
    • 翻译
  • 数据集来源: 原始数据
  • 数据集大小: 未知
  • 数据集收集:
    • 来源1: Axolotl,由UNAM的专家团队收集
    • 来源2: Bible UEDIN Nahuatl Spanish,由Christos Christodoulopoulos和Mark Steedman从Bible Gateway网站爬取
  • 数据集样本数:
    • Axolotl: 12,207样本
    • Bible UEDIN: 7,821样本
    • 总计: 20,028条语音

团队成员

应用

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作