Llamacha/monolingual-quechua-iic
收藏Hugging Face2022-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Llamacha/monolingual-quechua-iic
下载链接
链接失效反馈官方服务:
资源简介:
Monolingual-Quechua-IIC是一个单语的南克丘亚语语料库,可用于构建基于Transformers模型的语言模型。该语料库还包括了Wiki和OSCAR语料库,并用于构建了第一个基于Transformers的南克丘亚语语言模型Llama-RoBERTa-Quechua。
提供机构:
Llamacha
原始信息汇总
数据集概述
数据集名称
- 名称: Monolingual-Quechua-IIC
数据集描述
- 摘要: 我们提供Monolingual-Quechua-IIC,一个南Quechua的单语语料库,可用于构建使用Transformers模型的语言模型。此语料库还包括Wiki和OSCAR语料库。我们使用此语料库构建了Llama-RoBERTa-Quechua,这是第一个使用Transformers的南Quechua语言模型。
- 语言: 南Quechua
数据集结构
- 数据实例: 未提供详细信息
- 数据字段: 未提供详细信息
- 数据分割: 未提供详细信息
数据集创建
- 来源数据: 原始数据
- 注释: 无注释
- 个人和敏感信息: 未提供详细信息
使用数据注意事项
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
-
许可证: Apache-2.0
-
引用信息:
@inproceedings{zevallos2022introducing, title={Introducing QuBERT: A Large Monolingual Corpus and BERT Model for Southern Quechua}, author={Zevallos, Rodolfo and Ortega, John and Chen, William and Castro, Richard and Bel, Nuria and Toshio, Cesar and Venturas, Renzo and Aradiel, Hilario and Melgarejo, Nelsi}, booktitle={Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing}, pages={1--13}, year={2022} }
-
贡献者: 感谢@rjzevallos添加此数据集。



