davidguzmanr/AfriInstruct
收藏Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/davidguzmanr/AfriInstruct
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多种语言数据的集合,每个配置都包含指令、输出、语言、分割、来源和任务等特征。数据集分为训练集、验证集和测试集,每个集合都有相应的字节数和示例数。此外,数据集还提供了下载大小和总数据集大小。
This is a collection of language data with various configurations for different languages and language pairs. Each configuration includes features such as instruction, output, lang, split, source, and task. The dataset is divided into training, validation, and test splits, with each split providing the number of bytes and examples. Additionally, the dataset provides information on the download size and total dataset size.
提供机构:
davidguzmanr
原始信息汇总
数据集概述
数据集配置
配置名称:acq
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 45240751.49826847
- 样本数: 94910
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 26782935
- 数据集大小: 48288328.3815615
配置名称:aeb
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 45244884.90817879
- 样本数: 94910
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 27228383
- 数据集大小: 48292461.791471824
配置名称:afr
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 45206095.86462756
- 样本数: 94980
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 25295858
- 数据集大小: 48253672.747920595
配置名称:afr-eng
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 471538.19991478464
- 样本数: 991
- validation:
- 字节数: 0.0
- 样本数: 0
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 198417
- 数据集大小: 471538.19991478464
配置名称:afr-fra
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 468683.2764036961
- 样本数: 985
- validation:
- 字节数: 0.0
- 样本数: 0
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 216476
- 数据集大小: 468683.2764036961
配置名称:afrikaans
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25675805.932966925
- 样本数: 53946
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15145790
- 数据集大小: 28723382.816259958
配置名称:algerian_arabic
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25551494.27890311
- 样本数: 53700
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15083659
- 数据集大小: 28599071.162196144
配置名称:amh
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 20096758.235722344
- 样本数: 42236
- validation:
- 字节数: 7236496.779463338
- 样本数: 8425
- test:
- 字节数: 10208636.842918986
- 样本数: 11875
- train:
- 下载大小: 19855091
- 数据集大小: 37541891.85810467
配置名称:amh-eng
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 708972.6719203119
- 样本数: 1490
- validation:
- 字节数: 378788.73350069224
- 样本数: 441
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 422875
- 数据集大小: 1087761.4054210042
配置名称:amh-fra
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 482482.0733739572
- 样本数: 1014
- validation:
- 字节数: 0.0
- 样本数: 0
- test:
- 字节数: 0.0
- 样本数: 0
- train:
- 下载大小: 254740
- 数据集大小: 482482.0733739572
配置名称:amharic
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25743637.891550343
- 样本数: 53946
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15170919
- 数据集大小: 28791214.774843376
配置名称:ara
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25551565.424242113
- 样本数: 53700
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15083659
- 数据集大小: 28599142.307535145
配置名称:ara-eng
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25551565.424242113
- 样本数: 53700
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15083659
- 数据集大小: 28599142.307535145
配置名称:ara-fra
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25551565.424242113
- 样本数: 53700
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15083659
- 数据集大小: 28599142.307535145
配置名称:arb
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 57407036.90862073
- 样本数: 120180
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 30812422
- 数据集大小: 60454613.79191376
配置名称:arq
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 25584801.627125144
- 样本数: 53770
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 15088976
- 数据集大小: 28632378.510418177
配置名称:ars
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 45240958.11861854
- 样本数: 94910
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 26734638
- 数据集大小: 48288535.00191157
配置名称:ary
- 特征:
- instruction: string
- output: string
- lang: string
- split: string
- source: string
- task: string
- 分割:
- train:
- 字节数: 45379967.40305774
- 样本数: 95170
- validation:
- 字节数: 958567.4072262415
- 样本数: 1116
- test:
- 字节数: 2089009.4760667903
- 样本数: 2430
- train:
- 下载大小: 27398425
- 数据集大小: 48427544.28635077
配置名称:arz
- 特征:
- instruction: string
- output: string
- lang



