five

M-A-D/ArabicDarija-xP3x

收藏
Hugging Face2023-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M-A-D/ArabicDarija-xP3x
下载链接
链接失效反馈
官方服务:
资源简介:
xP3x(跨语言公共提示池扩展)是一个包含277种语言和16个NLP任务的提示和数据集集合。它是xP3的扩展版本,用于训练未来的mT0和BLOOMZ模型。数据集可以通过提供的指令和脚本重新创建,以节省处理时间。xP3x数据集家族包括多个变体,如xP3、xP3mt、xP3all、xP3megds和P3,每个变体都有不同的任务和语言配置。
提供机构:
M-A-D
原始信息汇总

数据集描述

数据集概述

  • 名称: ArabicDarija-xP3x
  • 所属系列: xP3x
  • 创建者: Muennighoff
  • 用途: 用于训练未来版本的mT0 & BLOOMZ,项目Aya @C4AI

数据集详情

  • 特征:
    • text: 字符串类型
    • language: 字符串类型
    • template: 字符串类型
    • dataset: 字符串类型
  • 分割:
    • train: 包含308,250,831字节,1,223,481个样本
  • 下载大小: 129,951,272字节
  • 数据集大小: 308,250,831字节

配置

  • 默认配置:
    • train 数据文件路径: data/train-*

相关信息

  • 语言数量: 277
  • xP3数据集系列:
    • xP3x: 包含17个任务,277种语言,英语提示
    • xP3: 包含13个训练任务,46种语言,英语提示
    • xP3mt: 包含13个训练任务,46种语言,20种语言的提示(机器翻译自英语)
    • xP3all: 包含16个任务,46种语言,英语提示
    • xP3megds: Megatron-DeepSpeed处理版本的xP3
    • P3: 重新处理的英语版本P3,包含8个训练任务
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作