five

dsfsi/PuoData

收藏
Hugging Face2023-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dsfsi/PuoData
下载链接
链接失效反馈
官方服务:
资源简介:
PuoData是一个为Setswana语言社区精心策划的语料库,旨在开发新的创新应用以造福Setswana语言社区。该数据集包含多种类型的文本,如政府文件、儿童书籍、圣经、官方文档、新闻标题等,总令牌数量为4,513,206。此外,PuoData与JW300结合后,总令牌数量达到24,295,328。该数据集已用于训练PuoBERTa模型,并提供了详细的引用信息和许可证详情。
提供机构:
dsfsi
原始信息汇总

数据集概述

数据集名称

  • PuoData

语言

  • Setswana

标签

  • setswana
  • corpora

数据集大小

  • 1M<n<10M

数据集详情

数据集组成

数据集名称 类型 词数
NCHLT Setswana 政府文件 1,010,147
Nalibali Setswana 儿童书籍 57,654
Setswana Bible 书籍 879,630
SA Constitution 官方文件 56,194
Leipzig Setswana Corpus BW 精选数据集 219,149
Leipzig Setswana Corpus ZA 精选数据集 218,037
SABC Dikgang tsa Setswana FB (Facebook) 新闻标题 167,119
SABC MotswedingFM FB 在线内容 33,092
Leipzig Setswana Wiki 在线内容 230,333
Setswana Wiki 在线内容 183,168
Vukuzenzele Monolingual TSN 政府新闻 157,798
gov-za Cabinet speeches TSN 政府演讲 591,920
Department Basic Education TSN 教育材料 708,965
PuoData Total 25MB 磁盘空间 4,513,206
PuoData+JW300
JW300 Setswana 书籍 19,782,122
PuoData+JW300 124MB 磁盘空间 24,295,328

数据集用途

引用信息

@inproceedings{marivate2023puoberta, title = {PuoBERTa: Training and evaluation of a curated language model for Setswana}, author = {Vukosi Marivate and Moseli MotsOehli and Valencia Wagner and Richard Lastrucci and Isheanesu Dzingirai}, year = {2023}, booktitle= {Artificial Intelligence Research. SACAIR 2023. Communications in Computer and Information Science}, url= {https://link.springer.com/chapter/10.1007/978-3-031-49002-6_17}, keywords = {NLP}, preprint_url = {https://arxiv.org/abs/2310.09141}, dataset_url = {https://github.com/dsfsi/PuoBERTa}, software_url = {https://huggingface.co/dsfsi/PuoBERTa} }

许可证

  • CC-BY-SA-4.0

联系信息

  • 邮箱: vukosi.marivate@cs.up.ac.za
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作