taufiqdp/Indo4B-hf
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taufiqdp/Indo4B-hf
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
features:
- name: text
dtype: string
splits:
- name: jw300
num_bytes: 54539911
num_examples: 9108
- name: oscar_all_uncased
num_bytes: 16148605562
num_examples: 49082088
- name: parallel_corpus
num_bytes: 3593980
num_examples: 23786
- name: tempo
num_bytes: 42958941
num_examples: 127733
- name: frog_storytelling
num_bytes: 10581
num_examples: 113
- name: talpco_indonesia
num_bytes: 60158
num_examples: 1372
- name: kompas
num_bytes: 26896162
num_examples: 64237
- name: bppt
num_bytes: 3712082
num_examples: 24021
- name: wiki
num_bytes: 557458161
num_examples: 1848614
- name: wikipedia_conllu
num_bytes: 444753040
num_examples: 544365
- name: conllu_all_uncased
num_bytes: 6675033110
num_examples: 61822059
- name: opensubtitles
num_bytes: 697156269
num_examples: 28977
download_size: 14718137933
dataset_size: 24654777957
configs:
- config_name: default
data_files:
- split: jw300
path: data/jw300-*
- split: oscar_all_uncased
path: data/oscar_all_uncased-*
- split: parallel_corpus
path: data/parallel_corpus-*
- split: tempo
path: data/tempo-*
- split: frog_storytelling
path: data/frog_storytelling-*
- split: talpco_indonesia
path: data/talpco_indonesia-*
- split: kompas
path: data/kompas-*
- split: bppt
path: data/bppt-*
- split: wiki
path: data/wiki-*
- split: wikipedia_conllu
path: data/wikipedia_conllu-*
- split: conllu_all_uncased
path: data/conllu_all_uncased-*
- split: opensubtitles
path: data/opensubtitles-*
task_categories:
- text-generation
language:
- id
---
提供机构:
taufiqdp
原始信息汇总
数据集概述
许可证
- MIT许可证
数据集信息
-
特征
- 名称: text
- 数据类型: string
-
分割
- 名称: jw300
- 字节数: 54539911
- 示例数: 9108
- 名称: oscar_all_uncased
- 字节数: 16148605562
- 示例数: 49082088
- 名称: parallel_corpus
- 字节数: 3593980
- 示例数: 23786
- 名称: tempo
- 字节数: 42958941
- 示例数: 127733
- 名称: frog_storytelling
- 字节数: 10581
- 示例数: 113
- 名称: talpco_indonesia
- 字节数: 60158
- 示例数: 1372
- 名称: kompas
- 字节数: 26896162
- 示例数: 64237
- 名称: bppt
- 字节数: 3712082
- 示例数: 24021
- 名称: wiki
- 字节数: 557458161
- 示例数: 1848614
- 名称: wikipedia_conllu
- 字节数: 444753040
- 示例数: 544365
- 名称: conllu_all_uncased
- 字节数: 6675033110
- 示例数: 61822059
- 名称: opensubtitles
- 字节数: 697156269
- 示例数: 28977
- 名称: jw300
-
下载大小: 14718137933字节
-
数据集大小: 24654777957字节
配置
- 配置名称: default
- 数据文件
- 分割: jw300
- 路径: data/jw300-*
- 分割: oscar_all_uncased
- 路径: data/oscar_all_uncased-*
- 分割: parallel_corpus
- 路径: data/parallel_corpus-*
- 分割: tempo
- 路径: data/tempo-*
- 分割: frog_storytelling
- 路径: data/frog_storytelling-*
- 分割: talpco_indonesia
- 路径: data/talpco_indonesia-*
- 分割: kompas
- 路径: data/kompas-*
- 分割: bppt
- 路径: data/bppt-*
- 分割: wiki
- 路径: data/wiki-*
- 分割: wikipedia_conllu
- 路径: data/wikipedia_conllu-*
- 分割: conllu_all_uncased
- 路径: data/conllu_all_uncased-*
- 分割: opensubtitles
- 路径: data/opensubtitles-*
- 分割: jw300
- 数据文件
任务类别
- 文本生成
语言
- 印度尼西亚语



