five

twi_text_c3

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/twi_text_c3
下载链接
链接失效反馈
官方服务:
资源简介:
Twi Text C3 旨在为低资源语言Twi语提供资源,它从网络上多个来源(如圣经、JW300、维基百科等)收集了包含675772个样本的文本数据,用于训练词嵌入和语言模型。数据集中既包含干净的文本,也包含带有不正确拼写和混合方言的嘈杂文本。该数据集基于CC-BY-NC 4.0协议发布,但由于包含JW300和圣经,可能存在宗教领域的偏见。
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作