ajesujoba/yoruba_text_c3

Name: ajesujoba/yoruba_text_c3
Creator: ajesujoba
Published: 2023-06-16 15:06:58
License: 暂无描述

Hugging Face2023-06-16 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ajesujoba/yoruba_text_c3

下载链接

链接失效反馈

官方服务：

资源简介：

Yorùbá Text C3数据集是从多个网络来源（如圣经、JW300、书籍、新闻文章、维基百科等）收集的，用于比较预训练词嵌入（如Fasttext和BERT）和基于精选Yorùbá文本训练的嵌入。该数据集包含干净的文本（即带有正确Yorùbá重音符号的文本）和来自其他在线来源（如维基百科、BBC Yorùbá和VON Yorùbá）的带有错误或缺失重音符号的噪声文本。该数据集专为训练Yoruba语言的词嵌入和语言模型而设计，支持文本生成和掩码填充任务。

提供机构：

ajesujoba

原始信息汇总

数据集概述

名称: Yorùbá Text C3

语言: 约鲁巴语 (Yorùbá)

许可证: Creative Commons Attribution-NonCommercial 4.0 (cc-by-nc-4.0)

多语言性: 单语种

大小: 100K<n<1M

源数据集: 原始数据

任务类别:

文本生成
填充掩码

任务ID:

语言建模
掩码语言建模

数据集结构

数据实例:

每个数据点为一行句子。

数据字段:

text: 字符串类型，每行一个句子文本。

数据分割:

仅包含训练分割。

数据集创建

来源数据:

数据来自网络上的多种来源，如圣经、JW300、书籍、新闻文章、维基百科等。

注释:

注释过程和注释者信息待补充。

使用数据考虑

偏见讨论:

数据集偏向宗教领域（基督教），因为包含了JW300和圣经。

附加信息

数据集整理者:

Jesujoba Alabi 和 David Adelani，萨尔兰大学学生。

许可证信息:

数据集受 Creative Commons Attribution-NonCommercial 4.0 许可证约束。

5,000+

优质数据集

54 个

任务类型

进入经典数据集