Yankari|自然语言处理数据集|约鲁巴语数据集

arXiv2024-12-04 更新2024-12-06 收录

自然语言处理

约鲁巴语

下载链接：

https://huggingface.co/datasets/acflp/YANKARI

下载链接

链接失效反馈

资源简介：

Yankari数据集是由非洲语言保护中心创建的一个大规模单语种约鲁巴语数据集，旨在填补自然语言处理（NLP）领域中约鲁巴语资源的重大空白。该数据集包含51,407份文档，总计超过3000万Tokens，来源于13个不同的高质量来源，如新闻网站、博客和维基百科等。数据集的创建过程强调了伦理数据收集、严格的质量控制和语言真实性的保护，避免了宗教文本和机器翻译内容的使用。Yankari数据集的应用领域广泛，包括开发更精确的NLP模型、支持比较语言学研究以及促进约鲁巴语的数字可访问性。

提供机构：

非洲语言保护中心

创建时间：

2024-12-04

AI搜集汇总

数据集介绍

构建方式

Yankari数据集的构建过程严格遵循了多步骤的方法论，旨在确保数据的高质量和代表性。首先，数据收集阶段精心选择了13个多样化的来源，包括新闻媒体、博客、教育网站和维基百科，以覆盖当代约鲁巴语使用的广泛领域。随后，通过自动化质量控制和严格的数据清洗流程，确保了数据的准确性和一致性。具体步骤包括HTML解析和文本提取、编码标准化、去重处理以及内容过滤，以去除低质量或不相关的数据。最终，数据集包含了51,407份文档，总计超过3000万词，为约鲁巴语的自然语言处理提供了坚实的基础。

使用方法

Yankari数据集的使用方法多样，适用于多种自然语言处理任务。首先，研究人员可以利用该数据集训练和评估约鲁巴语的自然语言处理模型，如文本分类、情感分析和机器翻译等。其次，该数据集支持比较语言学研究，帮助学者分析约鲁巴语的结构和演变。此外，Yankari还可以用于提升约鲁巴语的数字可访问性，促进该语言在现代技术中的应用。数据集以JSONL格式存储，每行包含一个独立的JSON文档，便于处理和分析。

背景与挑战

背景概述

在自然语言处理（NLP）领域，尽管高资源语言取得了显著进展，但许多非洲语言，包括约鲁巴语（Yoruba），仍处于资源匮乏的状态。约鲁巴语是西非重要的语言之一，拥有超过3000万使用者，但在NLP研究和应用中长期缺乏全面且符合伦理的数据资源。Yankari数据集的创建旨在填补这一关键空白，提供一个大规模、高质量的单语约鲁巴语数据集。该数据集由非洲语言保护中心（African Center For Language Preservation）的Maro Akpobi领导开发，包含51,407份来自13个不同来源的文档，总计超过3000万词元。Yankari数据集的创建不仅为约鲁巴语的NLP模型开发提供了基础，还为比较语言学研究和约鲁巴语的数字可访问性做出了贡献。

当前挑战

Yankari数据集的构建面临多重挑战。首先，约鲁巴语作为低资源语言，其在线内容的质量和多样性有限，这使得数据收集和筛选过程尤为复杂。其次，现有数据集中普遍存在的宗教文本偏见和伦理问题，要求Yankari在数据选择上更加谨慎，避免使用可能引发争议的来源。此外，自动化处理过程中可能出现的错误传播和上下文理解不足，也是构建高质量数据集的难点。最后，数据集的互联网偏见和书面语言偏见，可能导致对约鲁巴语使用多样性的不全面反映。这些挑战不仅影响了数据集的质量，也对未来低资源语言数据集的构建提出了更高的要求。

常用场景

经典使用场景

Yankari数据集的经典使用场景主要集中在自然语言处理（NLP）领域，特别是在低资源语言的文本生成和语言模型训练中。由于Yoruba语在NLP研究中的资源匮乏，Yankari通过提供大规模、高质量的单语数据，为开发更精确的Yoruba语言模型奠定了基础。研究人员可以利用该数据集进行词嵌入、文本分类、命名实体识别等任务，从而推动Yoruba语言在NLP中的应用和发展。

解决学术问题

Yankari数据集解决了在低资源语言NLP研究中常见的资源匮乏问题。通过提供一个包含51,407份文档、总计超过3000万词符的高质量数据集，Yankari填补了Yoruba语言在NLP资源方面的空白。这不仅有助于开发更精确的NLP模型，还支持了比较语言学研究，并为Yoruba语言的数字化可及性做出了贡献。此外，Yankari的创建方法强调了伦理数据收集，避免了现有数据集中常见的问题，如宗教文本的过度依赖和机器翻译内容的混入，从而为其他低资源语言的数据集创建提供了可复制的范例。

实际应用

Yankari数据集在实际应用中具有广泛的前景，特别是在教育和文化保护领域。通过提供丰富的Yoruba语言文本，该数据集可以用于开发语言学习工具，帮助非母语者学习和掌握Yoruba语。此外，Yankari还可以支持文化遗产的数字化保存，通过NLP技术分析和保存Yoruba语言的多样性和历史演变。在新闻和媒体行业，Yankari可以用于自动内容生成和翻译，提高Yoruba语内容的传播效率和准确性。

数据集最近研究

相关研究论文

1
Yankari: A Monolingual Yoruba Dataset非洲语言保护中心 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

The MaizeGDB

The MaizeGDB（Maize Genetics and Genomics Database）是一个专门为玉米（Zea mays）基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究，为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。