dsfsi/PuoData
收藏Hugging Face2023-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/PuoData
下载链接
链接失效反馈官方服务:
资源简介:
PuoData是一个为Setswana语言社区精心策划的语料库,旨在开发新的创新应用以造福Setswana语言社区。该数据集包含多种类型的文本,如政府文件、儿童书籍、圣经、官方文档、新闻标题等,总令牌数量为4,513,206。此外,PuoData与JW300结合后,总令牌数量达到24,295,328。该数据集已用于训练PuoBERTa模型,并提供了详细的引用信息和许可证详情。
提供机构:
dsfsi
原始信息汇总
数据集概述
数据集名称
- PuoData
语言
- Setswana
标签
- setswana
- corpora
数据集大小
- 1M<n<10M
数据集详情
数据集组成
| 数据集名称 | 类型 | 词数 |
|---|---|---|
| NCHLT Setswana | 政府文件 | 1,010,147 |
| Nalibali Setswana | 儿童书籍 | 57,654 |
| Setswana Bible | 书籍 | 879,630 |
| SA Constitution | 官方文件 | 56,194 |
| Leipzig Setswana Corpus BW | 精选数据集 | 219,149 |
| Leipzig Setswana Corpus ZA | 精选数据集 | 218,037 |
| SABC Dikgang tsa Setswana FB (Facebook) | 新闻标题 | 167,119 |
| SABC MotswedingFM FB | 在线内容 | 33,092 |
| Leipzig Setswana Wiki | 在线内容 | 230,333 |
| Setswana Wiki | 在线内容 | 183,168 |
| Vukuzenzele Monolingual TSN | 政府新闻 | 157,798 |
| gov-za Cabinet speeches TSN | 政府演讲 | 591,920 |
| Department Basic Education TSN | 教育材料 | 708,965 |
| PuoData Total | 25MB 磁盘空间 | 4,513,206 |
| PuoData+JW300 | ||
| JW300 Setswana | 书籍 | 19,782,122 |
| PuoData+JW300 | 124MB 磁盘空间 | 24,295,328 |
数据集用途
- 用于训练 PuoBERTa 和 PuoBERTaJW300。
引用信息
@inproceedings{marivate2023puoberta, title = {PuoBERTa: Training and evaluation of a curated language model for Setswana}, author = {Vukosi Marivate and Moseli MotsOehli and Valencia Wagner and Richard Lastrucci and Isheanesu Dzingirai}, year = {2023}, booktitle= {Artificial Intelligence Research. SACAIR 2023. Communications in Computer and Information Science}, url= {https://link.springer.com/chapter/10.1007/978-3-031-49002-6_17}, keywords = {NLP}, preprint_url = {https://arxiv.org/abs/2310.09141}, dataset_url = {https://github.com/dsfsi/PuoBERTa}, software_url = {https://huggingface.co/dsfsi/PuoBERTa} }
许可证
- CC-BY-SA-4.0
联系信息
- 邮箱: vukosi.marivate@cs.up.ac.za



