South-Africa-Presidential-Speeches-Text-and-NLP-Dataset
收藏South African Presidential Statements Dataset
概述
该数据集包含南非总统在多种南非语言中的声明,是一个用于自然语言处理(NLP)和机器翻译的宝贵资源,特别是对于低资源语言。南非语言的多语言数据集稀缺,构建稳健的NLP模型具有挑战性。该数据集通过提供多种南非语言的总统声明来填补这一空白。数据集中的声明时间范围从2012年2月9日到2023年10月9日。
数据集中的文件夹和文件
-
未组织的数据集(文件夹):
presidential_statements.json(文件):- 包含以南非语言起草的总统声明。
-
组织的数据集(文件夹):
nso_xh_ts.json(文件):- 包含以下三种语言的总统声明翻译:
- Northern Sotho (NSO)
- isiXhosa (XH)
- Xitsonga (TS)
- 包含以下三种语言的总统声明翻译:
-
笔记(文件夹):
statements_urls.txt(文件)和unbalanced_statements_data_info.txt(文件):- 包含描述数据性质的文件:
statements_urls.txt是一个包含声明提取来源URL的列表文件。unbalanced_statements_data_info.txt是一个包含没有所有翻译的声明的文件。
- 包含描述数据性质的文件:
-
脚本(文件夹):
multilingual-statement-scraping.ipynb(文件)和link-scraping.ipynb(文件):link-scraping.ipynb该脚本扫描南非总统网站页面,识别包含多语言翻译的总统声明的URL,并将其保存到文本文件中。multilingual-statement-scraping.ipynb该脚本从一系列网页中抓取多语言总统声明,识别并处理每个页面上的语言特定链接,提取相应的声明文本,并将数据组织成结构化字典。
应用
该数据集适用于以下任务:
- 机器翻译:构建和评估所有南非语言之间的翻译模型。
- 低资源NLP研究:增强对代表性不足和资源不足语言的理解。
- 情感分析:使用总统演讲分析不同语言中的公众情绪。
数据集结构
每个文件都以JSON对象的形式结构化,键表示唯一的声明ID。翻译在语言之间对齐,以便于在NLP任务中使用。
示例JSON结构:
JSON { "Statement 1": { "Afrikaans" : { "link" : url, "statement" : text }, "English(source)" : { "link" : url, "statement" : text }, "isiNdebele" : { "link" : url, "statement" : text }, "isiXhosa" : { "link" : url, "statement" : text } } }
引用和许可
如果使用此数据集,请按以下方式引用:
BibTeX: bibtex @misc {malesela_legodi_2024, author = { {Malesela Legodi} }, title = { South-Africa-Presidential-Speeches-Text-and-NLP-Dataset (Revision fa2ca6e) }, year = 2024, url = { https://huggingface.co/datasets/maleselalegodi/South-Africa-Presidential-Speeches-Text-and-NLP-Dataset }, doi = { 10.57967/hf/3781 }, publisher = { Hugging Face } }
备注
该数据集的同一版本在Kaggle和Hugging Face上均可获取。




