ajesujoba/yoruba_text_c3
收藏Hugging Face2023-06-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ajesujoba/yoruba_text_c3
下载链接
链接失效反馈官方服务:
资源简介:
Yorùbá Text C3数据集是从多个网络来源(如圣经、JW300、书籍、新闻文章、维基百科等)收集的,用于比较预训练词嵌入(如Fasttext和BERT)和基于精选Yorùbá文本训练的嵌入。该数据集包含干净的文本(即带有正确Yorùbá重音符号的文本)和来自其他在线来源(如维基百科、BBC Yorùbá和VON Yorùbá)的带有错误或缺失重音符号的噪声文本。该数据集专为训练Yoruba语言的词嵌入和语言模型而设计,支持文本生成和掩码填充任务。
Yorùbá Text C3数据集是从多个网络来源(如圣经、JW300、书籍、新闻文章、维基百科等)收集的,用于比较预训练词嵌入(如Fasttext和BERT)和基于精选Yorùbá文本训练的嵌入。该数据集包含干净的文本(即带有正确Yorùbá重音符号的文本)和来自其他在线来源(如维基百科、BBC Yorùbá和VON Yorùbá)的带有错误或缺失重音符号的噪声文本。该数据集专为训练Yoruba语言的词嵌入和语言模型而设计,支持文本生成和掩码填充任务。
提供机构:
ajesujoba
原始信息汇总
数据集概述
名称: Yorùbá Text C3
语言: 约鲁巴语 (Yorùbá)
许可证: Creative Commons Attribution-NonCommercial 4.0 (cc-by-nc-4.0)
多语言性: 单语种
大小: 100K<n<1M
源数据集: 原始数据
任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模
数据集结构
数据实例:
- 每个数据点为一行句子。
数据字段:
text: 字符串类型,每行一个句子文本。
数据分割:
- 仅包含训练分割。
数据集创建
来源数据:
- 数据来自网络上的多种来源,如圣经、JW300、书籍、新闻文章、维基百科等。
注释:
- 注释过程和注释者信息待补充。
使用数据考虑
偏见讨论:
- 数据集偏向宗教领域(基督教),因为包含了JW300和圣经。
附加信息
数据集整理者:
- Jesujoba Alabi 和 David Adelani,萨尔兰大学学生。
许可证信息:
- 数据集受 Creative Commons Attribution-NonCommercial 4.0 许可证约束。



