twi_text_c3
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/twi_text_c3
下载链接
链接失效反馈官方服务:
资源简介:
Twi Text C3 旨在为低资源语言Twi语提供资源,它从网络上多个来源(如圣经、JW300、维基百科等)收集了包含675772个样本的文本数据,用于训练词嵌入和语言模型。数据集中既包含干净的文本,也包含带有不正确拼写和混合方言的嘈杂文本。该数据集基于CC-BY-NC 4.0协议发布,但由于包含JW300和圣经,可能存在宗教领域的偏见。
创建时间:
2024-07-19



