afrizalha/Indo4B-Combined
收藏Hugging Face2024-03-20 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/Indo4B-Combined
下载链接
链接失效反馈官方服务:
资源简介:
这是Indo4B数据集的完整组合,合并为一个单一文件。原始数据集可以在https://github.com/IndoNLP/indonlu找到。该数据集是将所有不同的文件压缩成.tar.xz格式后的组合,目的是为了方便对印尼语NLP感兴趣的用户直接从HuggingFace加载已经合并好的数据集。注意,原始文件由行分隔的字符串组成,该数据集在合并时移除了可用的空行。
这是Indo4B数据集的完整组合,合并为一个单一文件。原始数据集可以在https://github.com/IndoNLP/indonlu找到。该数据集是将所有不同的文件压缩成.tar.xz格式后的组合,目的是为了方便对印尼语NLP感兴趣的用户直接从HuggingFace加载已经合并好的数据集。注意,原始文件由行分隔的字符串组成,该数据集在合并时移除了可用的空行。
提供机构:
afrizalha
原始信息汇总
数据集概述
基本信息
- 语言: 印尼语(id)
- 许可证: MIT
数据集特征
- 特征名称: text
- 数据类型: string
数据分割
- 分割名称: train
- 字节数: 25012332583
- 示例数量: 232763064
下载与数据集大小
- 下载大小: 15176365901
- 数据集大小: 25012332583
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*



