five

ajesujoba/yoruba_text_c3

收藏
Hugging Face2023-06-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ajesujoba/yoruba_text_c3
下载链接
链接失效反馈
官方服务:
资源简介:
Yorùbá Text C3数据集是从多个网络来源(如圣经、JW300、书籍、新闻文章、维基百科等)收集的,用于比较预训练词嵌入(如Fasttext和BERT)和基于精选Yorùbá文本训练的嵌入。该数据集包含干净的文本(即带有正确Yorùbá重音符号的文本)和来自其他在线来源(如维基百科、BBC Yorùbá和VON Yorùbá)的带有错误或缺失重音符号的噪声文本。该数据集专为训练Yoruba语言的词嵌入和语言模型而设计,支持文本生成和掩码填充任务。

Yorùbá Text C3数据集是从多个网络来源(如圣经、JW300、书籍、新闻文章、维基百科等)收集的,用于比较预训练词嵌入(如Fasttext和BERT)和基于精选Yorùbá文本训练的嵌入。该数据集包含干净的文本(即带有正确Yorùbá重音符号的文本)和来自其他在线来源(如维基百科、BBC Yorùbá和VON Yorùbá)的带有错误或缺失重音符号的噪声文本。该数据集专为训练Yoruba语言的词嵌入和语言模型而设计,支持文本生成和掩码填充任务。
提供机构:
ajesujoba
原始信息汇总

数据集概述

名称: Yorùbá Text C3

语言: 约鲁巴语 (Yorùbá)

许可证: Creative Commons Attribution-NonCommercial 4.0 (cc-by-nc-4.0)

多语言性: 单语种

大小: 100K<n<1M

源数据集: 原始数据

任务类别:

  • 文本生成
  • 填充掩码

任务ID:

  • 语言建模
  • 掩码语言建模

数据集结构

数据实例:

  • 每个数据点为一行句子。

数据字段:

  • text: 字符串类型,每行一个句子文本。

数据分割:

  • 仅包含训练分割。

数据集创建

来源数据:

  • 数据来自网络上的多种来源,如圣经、JW300、书籍、新闻文章、维基百科等。

注释:

  • 注释过程和注释者信息待补充。

使用数据考虑

偏见讨论:

  • 数据集偏向宗教领域(基督教),因为包含了JW300和圣经。

附加信息

数据集整理者:

  • Jesujoba Alabi 和 David Adelani,萨尔兰大学学生。

许可证信息:

  • 数据集受 Creative Commons Attribution-NonCommercial 4.0 许可证约束。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作