five

Hausa Corpus

收藏
arXiv2025-03-17 更新2025-03-19 收录
下载链接:
https://github.com/TheBangis/hausa_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Kalinga University等机构创建,包含来自七个豪萨语媒体的人类生成的文本以及基于这些文本自动生成的机器生成文本。数据集共有6572条条目,包括句子、单词和唯一单词的数量统计。该数据集用于训练和评估用于区分人类生成文本和机器生成文本的检测模型,有助于确保数字通信中的内容真实性,防止虚假新闻的传播。

This dataset was created by institutions including Kalinga University and others. It includes human-generated texts from seven Hausa-language media outlets, alongside machine-generated texts automatically generated based on these texts. The dataset contains a total of 6572 entries, with statistics on the number of sentences, words, and unique words. This dataset is utilized for training and evaluating detection models tasked with differentiating between human-generated and machine-generated texts, which aids in ensuring content authenticity within digital communications and preventing the spread of false news.
提供机构:
Kalinga University, Bayero University, Arewa Data Science Academy, DSFSI, University of Pretoria, Northeastern University, Imperial College London
创建时间:
2025-03-17
搜集汇总
数据集介绍
main_image_url
构建方式
Hausa Corpus数据集的构建基于对豪萨语新闻领域的人工生成文本和机器生成文本的收集与整合。研究团队从七个豪萨语新闻媒体网站中爬取了2,586篇人工生成的新闻文章,并通过Gemini-2.0模型基于这些文章的标题自动生成了等量的机器生成文本。数据经过清洗和预处理,去除了重复内容、非豪萨语文本及其他噪声,最终将人工生成与机器生成文本合并为一个统一的数据集,并标注了来源标签。这一过程确保了数据的高质量和多样性,为后续的模型训练和评估提供了坚实的基础。
特点
Hausa Corpus数据集的特点在于其专注于豪萨语这一低资源语言,填补了该领域在机器生成文本检测方面的空白。数据集包含了人工生成和机器生成的两类文本,涵盖了新闻领域的广泛主题。数据集的规模适中,包含6,737个句子、3,376,976个单词和49,883个独特单词,确保了数据的丰富性和代表性。此外,数据集的构建过程严格遵循了数据清洗和标准化流程,确保了数据的纯净性和一致性,为模型训练提供了可靠的基础。
使用方法
Hausa Corpus数据集的主要用途是训练和评估豪萨语机器生成文本检测模型。研究人员通过微调四种预训练的非洲语言模型(AfriTeVa、AfriBERTa、AfroXLMR和AfroXLMR-76L)来区分人工生成与机器生成的豪萨语文本。实验结果表明,AfroXLMR模型在检测任务中表现最佳,准确率达到99.23%,F1得分为99.21%。该数据集还可用于进一步研究低资源语言的文本生成与检测技术,特别是在新闻领域的应用。此外,数据集的公开性为学术界提供了宝贵资源,促进了豪萨语自然语言处理技术的发展。
背景与挑战
背景概述
Hausa Corpus数据集由Babangida Sani等研究人员于2025年创建,旨在解决豪萨语(Hausa)中机器生成文本与人类生成文本的区分问题。豪萨语是非洲使用最广泛的查德语之一,拥有超过1亿的使用者,主要分布在尼日利亚北部和尼日尔共和国。然而,豪萨语在计算语言学领域被视为低资源语言,缺乏足够的自然语言处理(NLP)资源支持。该数据集的构建基于七个豪萨语新闻媒体的真实文本,并通过Gemini-2.0模型生成对应的机器文本,填补了豪萨语在机器生成文本检测领域的空白。该数据集不仅推动了豪萨语的NLP研究,还为低资源语言的文本检测提供了新的研究方向。
当前挑战
Hausa Corpus数据集面临的主要挑战包括两个方面。首先,豪萨语作为低资源语言,缺乏足够的标注数据和预训练模型,导致在构建数据集时面临数据稀缺和质量问题。其次,机器生成文本的检测本身具有复杂性,尤其是在低资源语言中,机器生成文本的质量与人类文本的相似度较高,增加了检测的难度。此外,数据集的构建过程中还面临数据清洗和预处理的挑战,例如去除重复内容、非豪萨语文本以及标记语言的干扰。这些挑战不仅影响了数据集的构建效率,也对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
Hausa Corpus 数据集在自然语言处理领域中的经典使用场景是用于区分豪萨语中的人类生成文本与机器生成文本。通过从七个豪萨语媒体网站抓取人类生成的新闻文章,并使用 Gemini-2.0 模型生成对应的机器生成文本,该数据集为豪萨语的文本检测提供了高质量的训练和测试数据。这一场景特别适用于新闻领域,帮助研究人员开发能够有效识别机器生成内容的模型,从而确保信息的真实性和可靠性。
实际应用
Hausa Corpus 数据集的实际应用场景广泛,尤其是在新闻媒体、社交媒体和学术领域。通过训练基于该数据集的检测模型,可以有效识别豪萨语新闻文章中的机器生成内容,从而减少虚假新闻的传播。此外,该数据集还可用于教育领域,帮助教师和学生识别学术作业中的机器生成文本,防止学术不端行为。其应用不仅限于豪萨语,还为其他低资源语言的文本检测提供了参考。
衍生相关工作
Hausa Corpus 数据集衍生了一系列相关研究工作,特别是在低资源语言的文本检测领域。基于该数据集,研究人员开发了多个预训练语言模型,如 AfriTeVa、AfriBERTa 和 AfroXLMR,这些模型在豪萨语文本检测任务中表现出色。此外,该数据集还启发了对其他非洲语言的类似研究,推动了跨语言迁移学习在文本检测中的应用。这些工作不仅扩展了豪萨语的自然语言处理能力,还为其他低资源语言的文本检测提供了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作