flax-community/swahili-safi
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-community/swahili-safi
下载链接
链接失效反馈官方服务:
资源简介:
Swahili-Safi数据集是一个专为斯瓦希里语语言模型设计的干净数据集,通过整合和清洗多个现有数据源构建而成,包括mc4-sw, oscar-sw, swahili_news等。数据集总大小约为3.5GB,包含超过2100万行文本。
提供机构:
flax-community
原始信息汇总
Swahili-Safi Dataset 概述
数据集描述
- 语言: Swahili
- 数据集名称: Swahili-Safi Dataset
- 构建方式: 通过合并和清洗多个现有数据集构建而成。
- 数据来源:
- mc4-sw
- oscar-sw
- swahili_news
- IWSLT
- XNLI
- flores 101
- swahili-lm
- gamayun-swahili-minikit
- broadcastnews-sw
- 部分英文维基百科翻译至Swahili
数据集规模
- 总大小: 约3.5 GB
- 文本行数: 超过2100万行
使用方法
- 加载数据集: python from datasets import load_dataset ds = load_dataset("flax-community/swahili-safi")



