five

taufiqdp/Indo4B-hf

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taufiqdp/Indo4B-hf
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit dataset_info: features: - name: text dtype: string splits: - name: jw300 num_bytes: 54539911 num_examples: 9108 - name: oscar_all_uncased num_bytes: 16148605562 num_examples: 49082088 - name: parallel_corpus num_bytes: 3593980 num_examples: 23786 - name: tempo num_bytes: 42958941 num_examples: 127733 - name: frog_storytelling num_bytes: 10581 num_examples: 113 - name: talpco_indonesia num_bytes: 60158 num_examples: 1372 - name: kompas num_bytes: 26896162 num_examples: 64237 - name: bppt num_bytes: 3712082 num_examples: 24021 - name: wiki num_bytes: 557458161 num_examples: 1848614 - name: wikipedia_conllu num_bytes: 444753040 num_examples: 544365 - name: conllu_all_uncased num_bytes: 6675033110 num_examples: 61822059 - name: opensubtitles num_bytes: 697156269 num_examples: 28977 download_size: 14718137933 dataset_size: 24654777957 configs: - config_name: default data_files: - split: jw300 path: data/jw300-* - split: oscar_all_uncased path: data/oscar_all_uncased-* - split: parallel_corpus path: data/parallel_corpus-* - split: tempo path: data/tempo-* - split: frog_storytelling path: data/frog_storytelling-* - split: talpco_indonesia path: data/talpco_indonesia-* - split: kompas path: data/kompas-* - split: bppt path: data/bppt-* - split: wiki path: data/wiki-* - split: wikipedia_conllu path: data/wikipedia_conllu-* - split: conllu_all_uncased path: data/conllu_all_uncased-* - split: opensubtitles path: data/opensubtitles-* task_categories: - text-generation language: - id ---
提供机构:
taufiqdp
原始信息汇总

数据集概述

许可证

  • MIT许可证

数据集信息

  • 特征

    • 名称: text
    • 数据类型: string
  • 分割

    • 名称: jw300
      • 字节数: 54539911
      • 示例数: 9108
    • 名称: oscar_all_uncased
      • 字节数: 16148605562
      • 示例数: 49082088
    • 名称: parallel_corpus
      • 字节数: 3593980
      • 示例数: 23786
    • 名称: tempo
      • 字节数: 42958941
      • 示例数: 127733
    • 名称: frog_storytelling
      • 字节数: 10581
      • 示例数: 113
    • 名称: talpco_indonesia
      • 字节数: 60158
      • 示例数: 1372
    • 名称: kompas
      • 字节数: 26896162
      • 示例数: 64237
    • 名称: bppt
      • 字节数: 3712082
      • 示例数: 24021
    • 名称: wiki
      • 字节数: 557458161
      • 示例数: 1848614
    • 名称: wikipedia_conllu
      • 字节数: 444753040
      • 示例数: 544365
    • 名称: conllu_all_uncased
      • 字节数: 6675033110
      • 示例数: 61822059
    • 名称: opensubtitles
      • 字节数: 697156269
      • 示例数: 28977
  • 下载大小: 14718137933字节

  • 数据集大小: 24654777957字节

配置

  • 配置名称: default
    • 数据文件
      • 分割: jw300
        • 路径: data/jw300-*
      • 分割: oscar_all_uncased
        • 路径: data/oscar_all_uncased-*
      • 分割: parallel_corpus
        • 路径: data/parallel_corpus-*
      • 分割: tempo
        • 路径: data/tempo-*
      • 分割: frog_storytelling
        • 路径: data/frog_storytelling-*
      • 分割: talpco_indonesia
        • 路径: data/talpco_indonesia-*
      • 分割: kompas
        • 路径: data/kompas-*
      • 分割: bppt
        • 路径: data/bppt-*
      • 分割: wiki
        • 路径: data/wiki-*
      • 分割: wikipedia_conllu
        • 路径: data/wikipedia_conllu-*
      • 分割: conllu_all_uncased
        • 路径: data/conllu_all_uncased-*
      • 分割: opensubtitles
        • 路径: data/opensubtitles-*

任务类别

  • 文本生成

语言

  • 印度尼西亚语
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作