dsfsi/gov-za-monolingual
收藏南非政府多语言语料库
数据集介绍
该数据集包含南非政府的内阁声明,由政府通信和信息系统(GCIS)维护。数据是从政府网站上抓取的:https://www.gov.za/cabinet-statements
数据集包含11种语言的内阁声明,具体如下:
| 语言 | 代码 | 语言 | 代码 |
|---|---|---|---|
| 南非荷兰语 | (af) | 塞茨瓦纳语 | (tn) |
| 英语 | (en) | 塞佩迪语 | (nso) |
| 塞索托语 | (st) | 斯瓦蒂语 | (ss) |
| 恩德贝勒语 | (nr) | 茨瓦纳语 | (ve) |
| 科萨语 | (xh) | 聪加语 | (ts) |
| 祖鲁语 | (zu) | ||
| 注意: 代码由GCIS网站分配,除塞佩迪语(nso)外,所有代码均遵循ISO 639-1语言代码格式,而塞佩迪语遵循ISO 639-2语言代码格式。 |
数据集采用JSON格式,具体如下: json [ { "title": "Title in English", "date": "DD MMM YYYY", "datetime": "YYYY-MM-DD", #有时是时间戳 "url": "URL to original text", "en": { "text": "Cabinet", "title": "Title in translated language", "url": "URL to translated text" }, "af" : {}, . . . }, {}, . . . ]
免责声明
该数据集包含从南非政府在线内阁声明中提取的机器可读数据,由政府通信信息系统(GCIS)提供。尽管已努力确保数据的准确性和完整性,但原始出版物与该数据集之间可能存在错误或差异。对于数据集中的信息,没有任何保证、保证或陈述。数据科学对社会影响研究小组的成员对该数据集中的任何错误或差异不承担任何责任和/或责任。政府通信信息系统(GCIS)对该数据集中的任何错误或差异不承担任何责任和/或责任。建议用户在根据此信息做出决定之前验证所有包含的信息。
作者
- Vukosi Marivate - @vukosi
- Matimba Shingange
- Richard Lastrucci
- Isheanesu Joseph Dzingirai
- Jenalea Rajab
引用
论文
Preparing the Vukuzenzele and ZA-gov-multilingual South African multilingual corpora
@inproceedings{lastrucci-etal-2023-preparing, title = "Preparing the Vuk{}uzenzele and {ZA}-gov-multilingual {S}outh {A}frican multilingual corpora", author = "Richard Lastrucci and Isheanesu Dzingirai and Jenalea Rajab and Andani Madodonga and Matimba Shingange and Daniel Njini and Vukosi Marivate", booktitle = "Proceedings of the Fourth workshop on Resources for African Indigenous Languages (RAIL 2023)", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.rail-1.3", pages = "18--25" }
数据集
Vukosi Marivate, Matimba Shingange, Richard Lastrucci, Isheanesu Joseph Dzingirai, Jenalea Rajab. The South African Gov-ZA multilingual corpus, 2022
@dataset{marivate_vukosi_2023_7635168, author = {Marivate, Vukosi and Shingange, Matimba and Lastrucci, Richard and Dzingirai, Isheanesu and Rajab, Jenalea}, title = {The South African Gov-ZA multilingual corpus}, month = feb, year = 2023, publisher = {Zenodo}, version = {1.0}, doi = {10.5281/zenodo.7635168}, url = {https://doi.org/10.5281/zenodo.7635168} }
许可证
- 数据许可证 - CC 4.0 BY
- 代码许可证 - MIT License



