five

Llamacha/monolingual-quechua-iic

收藏
Hugging Face2022-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Llamacha/monolingual-quechua-iic
下载链接
链接失效反馈
官方服务:
资源简介:
Monolingual-Quechua-IIC是一个单语的南克丘亚语语料库,可用于构建基于Transformers模型的语言模型。该语料库还包括了Wiki和OSCAR语料库,并用于构建了第一个基于Transformers的南克丘亚语语言模型Llama-RoBERTa-Quechua。
提供机构:
Llamacha
原始信息汇总

数据集概述

数据集名称

  • 名称: Monolingual-Quechua-IIC

数据集描述

  • 摘要: 我们提供Monolingual-Quechua-IIC,一个南Quechua的单语语料库,可用于构建使用Transformers模型的语言模型。此语料库还包括Wiki和OSCAR语料库。我们使用此语料库构建了Llama-RoBERTa-Quechua,这是第一个使用Transformers的南Quechua语言模型。
  • 语言: 南Quechua

数据集结构

  • 数据实例: 未提供详细信息
  • 数据字段: 未提供详细信息
  • 数据分割: 未提供详细信息

数据集创建

  • 来源数据: 原始数据
  • 注释: 无注释
  • 个人和敏感信息: 未提供详细信息

使用数据注意事项

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 许可证: Apache-2.0

  • 引用信息:

    @inproceedings{zevallos2022introducing, title={Introducing QuBERT: A Large Monolingual Corpus and BERT Model for Southern Quechua}, author={Zevallos, Rodolfo and Ortega, John and Chen, William and Castro, Richard and Bel, Nuria and Toshio, Cesar and Venturas, Renzo and Aradiel, Hilario and Melgarejo, Nelsi}, booktitle={Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing}, pages={1--13}, year={2022} }

  • 贡献者: 感谢@rjzevallos添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作