five

flax-community/swahili-safi

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-community/swahili-safi
下载链接
链接失效反馈
官方服务:
资源简介:
Swahili-Safi数据集是一个专为斯瓦希里语语言模型设计的干净数据集,通过整合和清洗多个现有数据源构建而成,包括mc4-sw, oscar-sw, swahili_news等。数据集总大小约为3.5GB,包含超过2100万行文本。
提供机构:
flax-community
原始信息汇总

Swahili-Safi Dataset 概述

数据集描述

  • 语言: Swahili
  • 数据集名称: Swahili-Safi Dataset
  • 构建方式: 通过合并和清洗多个现有数据集构建而成。
  • 数据来源:
    • mc4-sw
    • oscar-sw
    • swahili_news
    • IWSLT
    • XNLI
    • flores 101
    • swahili-lm
    • gamayun-swahili-minikit
    • broadcastnews-sw
    • 部分英文维基百科翻译至Swahili

数据集规模

  • 总大小: 约3.5 GB
  • 文本行数: 超过2100万行

使用方法

  • 加载数据集: python from datasets import load_dataset ds = load_dataset("flax-community/swahili-safi")
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作