Yankari

Name: Yankari
Creator: 非洲语言保护中心
Published: 2024-12-04 22:05:18
License: 暂无描述

arXiv2024-12-04 更新2024-12-06 收录

下载链接：

https://huggingface.co/datasets/acflp/YANKARI

下载链接

链接失效反馈

官方服务：

资源简介：

Yankari数据集是由非洲语言保护中心创建的一个大规模单语种约鲁巴语数据集，旨在填补自然语言处理（NLP）领域中约鲁巴语资源的重大空白。该数据集包含51,407份文档，总计超过3000万Tokens，来源于13个不同的高质量来源，如新闻网站、博客和维基百科等。数据集的创建过程强调了伦理数据收集、严格的质量控制和语言真实性的保护，避免了宗教文本和机器翻译内容的使用。Yankari数据集的应用领域广泛，包括开发更精确的NLP模型、支持比较语言学研究以及促进约鲁巴语的数字可访问性。

The Yankari Dataset is a large-scale monolingual Yoruba dataset created by the African Language Conservancy, aimed at addressing the significant gap in Yoruba language resources within the field of natural language processing (NLP). It contains 51,407 documents totaling over 30 million Tokens, sourced from 13 distinct high-quality sources including news websites, blogs, Wikipedia, and others. The development of this dataset emphasizes ethical data collection, rigorous quality control, and the preservation of linguistic authenticity, excluding religious texts and machine-translated content. The Yankari Dataset has a wide range of applications, including developing more accurate NLP models, supporting comparative linguistics research, and promoting digital accessibility of the Yoruba language.

提供机构：

非洲语言保护中心

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

Yankari数据集的构建过程严格遵循了多步骤的方法论，旨在确保数据的高质量和代表性。首先，数据收集阶段精心选择了13个多样化的来源，包括新闻媒体、博客、教育网站和维基百科，以覆盖当代约鲁巴语使用的广泛领域。随后，通过自动化质量控制和严格的数据清洗流程，确保了数据的准确性和一致性。具体步骤包括HTML解析和文本提取、编码标准化、去重处理以及内容过滤，以去除低质量或不相关的数据。最终，数据集包含了51,407份文档，总计超过3000万词，为约鲁巴语的自然语言处理提供了坚实的基础。

使用方法

Yankari数据集的使用方法多样，适用于多种自然语言处理任务。首先，研究人员可以利用该数据集训练和评估约鲁巴语的自然语言处理模型，如文本分类、情感分析和机器翻译等。其次，该数据集支持比较语言学研究，帮助学者分析约鲁巴语的结构和演变。此外，Yankari还可以用于提升约鲁巴语的数字可访问性，促进该语言在现代技术中的应用。数据集以JSONL格式存储，每行包含一个独立的JSON文档，便于处理和分析。

背景与挑战

背景概述

在自然语言处理（NLP）领域，尽管高资源语言取得了显著进展，但许多非洲语言，包括约鲁巴语（Yoruba），仍处于资源匮乏的状态。约鲁巴语是西非重要的语言之一，拥有超过3000万使用者，但在NLP研究和应用中长期缺乏全面且符合伦理的数据资源。Yankari数据集的创建旨在填补这一关键空白，提供一个大规模、高质量的单语约鲁巴语数据集。该数据集由非洲语言保护中心（African Center For Language Preservation）的Maro Akpobi领导开发，包含51,407份来自13个不同来源的文档，总计超过3000万词元。Yankari数据集的创建不仅为约鲁巴语的NLP模型开发提供了基础，还为比较语言学研究和约鲁巴语的数字可访问性做出了贡献。

当前挑战

Yankari数据集的构建面临多重挑战。首先，约鲁巴语作为低资源语言，其在线内容的质量和多样性有限，这使得数据收集和筛选过程尤为复杂。其次，现有数据集中普遍存在的宗教文本偏见和伦理问题，要求Yankari在数据选择上更加谨慎，避免使用可能引发争议的来源。此外，自动化处理过程中可能出现的错误传播和上下文理解不足，也是构建高质量数据集的难点。最后，数据集的互联网偏见和书面语言偏见，可能导致对约鲁巴语使用多样性的不全面反映。这些挑战不仅影响了数据集的质量，也对未来低资源语言数据集的构建提出了更高的要求。

常用场景

经典使用场景

Yankari数据集的经典使用场景主要集中在自然语言处理（NLP）领域，特别是在低资源语言的文本生成和语言模型训练中。由于Yoruba语在NLP研究中的资源匮乏，Yankari通过提供大规模、高质量的单语数据，为开发更精确的Yoruba语言模型奠定了基础。研究人员可以利用该数据集进行词嵌入、文本分类、命名实体识别等任务，从而推动Yoruba语言在NLP中的应用和发展。

解决学术问题

Yankari数据集解决了在低资源语言NLP研究中常见的资源匮乏问题。通过提供一个包含51,407份文档、总计超过3000万词符的高质量数据集，Yankari填补了Yoruba语言在NLP资源方面的空白。这不仅有助于开发更精确的NLP模型，还支持了比较语言学研究，并为Yoruba语言的数字化可及性做出了贡献。此外，Yankari的创建方法强调了伦理数据收集，避免了现有数据集中常见的问题，如宗教文本的过度依赖和机器翻译内容的混入，从而为其他低资源语言的数据集创建提供了可复制的范例。

实际应用

Yankari数据集在实际应用中具有广泛的前景，特别是在教育和文化保护领域。通过提供丰富的Yoruba语言文本，该数据集可以用于开发语言学习工具，帮助非母语者学习和掌握Yoruba语。此外，Yankari还可以支持文化遗产的数字化保存，通过NLP技术分析和保存Yoruba语言的多样性和历史演变。在新闻和媒体行业，Yankari可以用于自动内容生成和翻译，提高Yoruba语内容的传播效率和准确性。

数据集最近研究