five

davidguzmanr/AfriInstruct

收藏
Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/davidguzmanr/AfriInstruct
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多种语言数据的集合,每个配置都包含指令、输出、语言、分割、来源和任务等特征。数据集分为训练集、验证集和测试集,每个集合都有相应的字节数和示例数。此外,数据集还提供了下载大小和总数据集大小。

This is a collection of language data with various configurations for different languages and language pairs. Each configuration includes features such as instruction, output, lang, split, source, and task. The dataset is divided into training, validation, and test splits, with each split providing the number of bytes and examples. Additionally, the dataset provides information on the download size and total dataset size.
提供机构:
davidguzmanr
原始信息汇总

数据集概述

数据集配置

配置名称:acq

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 45240751.49826847
      • 样本数: 94910
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 26782935
  • 数据集大小: 48288328.3815615

配置名称:aeb

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 45244884.90817879
      • 样本数: 94910
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 27228383
  • 数据集大小: 48292461.791471824

配置名称:afr

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 45206095.86462756
      • 样本数: 94980
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 25295858
  • 数据集大小: 48253672.747920595

配置名称:afr-eng

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 471538.19991478464
      • 样本数: 991
    • validation:
      • 字节数: 0.0
      • 样本数: 0
    • test:
      • 字节数: 0.0
      • 样本数: 0
  • 下载大小: 198417
  • 数据集大小: 471538.19991478464

配置名称:afr-fra

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 468683.2764036961
      • 样本数: 985
    • validation:
      • 字节数: 0.0
      • 样本数: 0
    • test:
      • 字节数: 0.0
      • 样本数: 0
  • 下载大小: 216476
  • 数据集大小: 468683.2764036961

配置名称:afrikaans

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25675805.932966925
      • 样本数: 53946
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15145790
  • 数据集大小: 28723382.816259958

配置名称:algerian_arabic

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25551494.27890311
      • 样本数: 53700
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15083659
  • 数据集大小: 28599071.162196144

配置名称:amh

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 20096758.235722344
      • 样本数: 42236
    • validation:
      • 字节数: 7236496.779463338
      • 样本数: 8425
    • test:
      • 字节数: 10208636.842918986
      • 样本数: 11875
  • 下载大小: 19855091
  • 数据集大小: 37541891.85810467

配置名称:amh-eng

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 708972.6719203119
      • 样本数: 1490
    • validation:
      • 字节数: 378788.73350069224
      • 样本数: 441
    • test:
      • 字节数: 0.0
      • 样本数: 0
  • 下载大小: 422875
  • 数据集大小: 1087761.4054210042

配置名称:amh-fra

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 482482.0733739572
      • 样本数: 1014
    • validation:
      • 字节数: 0.0
      • 样本数: 0
    • test:
      • 字节数: 0.0
      • 样本数: 0
  • 下载大小: 254740
  • 数据集大小: 482482.0733739572

配置名称:amharic

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25743637.891550343
      • 样本数: 53946
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15170919
  • 数据集大小: 28791214.774843376

配置名称:ara

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25551565.424242113
      • 样本数: 53700
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15083659
  • 数据集大小: 28599142.307535145

配置名称:ara-eng

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25551565.424242113
      • 样本数: 53700
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15083659
  • 数据集大小: 28599142.307535145

配置名称:ara-fra

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25551565.424242113
      • 样本数: 53700
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15083659
  • 数据集大小: 28599142.307535145

配置名称:arb

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 57407036.90862073
      • 样本数: 120180
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 30812422
  • 数据集大小: 60454613.79191376

配置名称:arq

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 25584801.627125144
      • 样本数: 53770
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 15088976
  • 数据集大小: 28632378.510418177

配置名称:ars

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 45240958.11861854
      • 样本数: 94910
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 26734638
  • 数据集大小: 48288535.00191157

配置名称:ary

  • 特征
    • instruction: string
    • output: string
    • lang: string
    • split: string
    • source: string
    • task: string
  • 分割
    • train:
      • 字节数: 45379967.40305774
      • 样本数: 95170
    • validation:
      • 字节数: 958567.4072262415
      • 样本数: 1116
    • test:
      • 字节数: 2089009.4760667903
      • 样本数: 2430
  • 下载大小: 27398425
  • 数据集大小: 48427544.28635077

配置名称:arz

  • 特征
    • instruction: string
    • output: string
    • lang
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作