Uchaguzi-2022
收藏arXiv2024-12-18 更新2024-12-19 收录
下载链接:
https://github.ushahidi.org/uchaguzi-ai/
下载链接
链接失效反馈官方服务:
资源简介:
Uchaguzi-2022是由Ushahidi平台收集的关于2022年肯尼亚大选的公民报告数据集,包含14,169条经过分类和地理标记的报告。数据集内容涵盖了选举相关的各种问题,如官方不当行为、投票计数异常和暴力事件。数据集的创建过程包括志愿者对报告的手动审查和注释,确保了数据的准确性和完整性。该数据集主要用于研究自然语言处理技术在社会公益领域的应用,特别是自动分类和地理标记报告,以帮助政策制定者更好地理解选举期间的社会动态。
Uchaguzi-2022 is a citizen report dataset focused on the 2022 Kenyan general election, collected through the Ushahidi platform. It comprises 14,169 classified and geotagged reports. The dataset encompasses a wide range of election-related issues, such as official misconduct, anomalous vote counting practices, and violent incidents. The dataset was curated via manual review and annotation of reports by volunteer contributors, which ensures the accuracy and completeness of the collected data. This resource is primarily utilized for research on the application of natural language processing (NLP) technologies in the social public welfare domain, particularly for the automatic classification and geotagging of citizen reports, to enable policymakers to gain a better understanding of social dynamics during the election period.
提供机构:
数据矿工公司
创建时间:
2024-12-18
原始信息汇总
Uchaguzi-2022 Dataset
概述
Uchaguzi-2022 是一个包含 14,000 条报告的数据集,涉及 2022 年肯尼亚大选,并包含结构化的分类和地理标记元数据。
数据访问
要访问该数据集,需填写数据访问表单。表单审核通过后,将提供下载链接。
引用
如在工作中使用该数据集,请引用以下内容:
bibtex @misc{mondini-2024-uchaguzi-2022-dataset-citizen-reports, title={Uchaguzi-2022: A Dataset of Citizen Reports on the 2022 Kenyan Election}, author={Roberto Mondini and Neema Kotonya and Robert L. Logan IV and Elizabeth M Olson and Angela Oduor Lungati and Daniel Duke Odongo and Tim Ombasa and Hemank Lamba and Aoife Cahill and Joel R. Tetreault and Alejandro Jaimes}, year={2024}, eprint={2412.13098}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.13098}, }
搜集汇总
数据集介绍

构建方式
Uchaguzi-2022数据集由14,169条公民报告组成,这些报告与2022年肯尼亚大选相关,并在2022年6月27日至8月29日期间通过Uchaguzi平台提交。该平台允许公民通过短信、X(原Twitter)帖子以及USSD和WhatsApp发起的问卷调查分享选举相关事件的报告。报告由Ushahidi的志愿者团队手动审核和注释,志愿者在注释前接受了培训,确保其熟练掌握英语和斯瓦希里语。志愿者根据主题和主题特定标签对报告进行分类,并提供标题和地理标签。
使用方法
Uchaguzi-2022数据集可用于训练和评估自然语言处理模型,特别是用于自动化报告分类和地理标记的任务。研究者可以通过该数据集开发模型,自动识别报告的主题和标签,并提取报告中的地理位置信息。此外,数据集还可用于研究选举期间的舆论动态、社会行为以及选举相关事件的地理分布。通过分析报告的时间趋势和地理分布,研究者可以深入了解选举期间的社会动态和事件影响。
背景与挑战
背景概述
Uchaguzi-2022数据集是由Dataminr Inc.和Ushahidi合作创建的,旨在收集和分析2022年肯尼亚大选期间的公民报告。该数据集包含了14,169条经过分类和地理标记的公民报告,涵盖了选举相关的各种问题,如官方不当行为、投票计数违规和暴力行为。这些报告通过Uchahuzi平台收集,该平台允许公民通过短信、Twitter和问卷等方式提交选举相关的报告。数据集的创建旨在通过自然语言处理技术,自动化报告的分类和地理标记过程,从而减轻人工注释的负担,并为政策制定者提供有价值的见解,以促进社会积极变革。
当前挑战
Uchaguzi-2022数据集面临的挑战主要集中在两个方面:一是如何有效处理和分类大量来自不同来源的公民报告,这些报告可能包含噪声和不一致的信息;二是如何准确地进行地理标记,尤其是当报告中的地理位置信息不明确或缺失时。此外,数据集的注释过程中存在一定的主观性,导致不同注释者之间的可靠性存在差异,这也为自动化分类和地理标记带来了额外的挑战。
常用场景
经典使用场景
Uchaguzi-2022数据集的经典使用场景主要集中在自动化报告分类和地理标记上。该数据集包含了14,169条与2022年肯尼亚大选相关的公民报告,这些报告已被分类和地理标记。通过使用该数据集,研究者可以训练语言模型来自动化处理这些任务,从而减少手动标注的工作量,提高数据处理的效率。
解决学术问题
Uchaguzi-2022数据集解决了在选举期间处理大量公民报告时面临的常见学术问题。传统上,这些报告的分类和地理标记需要大量的人工干预,导致信息处理效率低下。该数据集通过提供已分类和地理标记的报告,使得研究者能够探索自动化方法,从而提高数据处理的效率和准确性,为政策制定者提供更有价值的见解。
实际应用
Uchaguzi-2022数据集在实际应用中具有广泛的前景。例如,选举监督机构可以利用该数据集训练的模型来自动化处理公民报告,快速识别选举中的违规行为和安全问题。此外,新闻机构和非政府组织也可以利用这些数据来跟踪选举动态,提供实时的选举报道和分析,从而增强公众对选举过程的信任。
数据集最近研究
最新研究方向
Uchaguzi-2022数据集的最新研究方向主要集中在利用自然语言处理(NLP)技术自动化处理公民报告的分类和地理标记任务。该数据集包含了2022年肯尼亚大选期间公民通过社交媒体平台提交的14,169条报告,涵盖选举相关问题如官方不当行为、投票计数违规和暴力事件。研究者通过对比不同类型的语言模型(如编码器模型和解码器模型)在分类和地理标记任务中的表现,探索了少样本学习(few-shot learning)在快速适应新场景中的潜力。此外,该研究还展示了如何通过自动化工具减轻人工标注的负担,从而提高数据处理的效率和准确性,为社会公益领域的AI应用提供了新的可能性。
相关研究论文
- 1Uchaguzi-2022: A Dataset of Citizen Reports on the 2022 Kenyan Election数据矿工公司 · 2024年
以上内容由遇见数据集搜集并总结生成



