ufotalent/zero_bubble_sample_dataset
收藏Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ufotalent/zero_bubble_sample_dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是C4数据集中realnewslike子目录的预处理版本。使用了Megatron-LM工具进行预处理,指定了输入文件、分区数、输出前缀、分词器类型、分词器模型和工作线程数。数据集的许可证为odc-by。
这是C4数据集中realnewslike子目录的预处理版本。使用了Megatron-LM工具进行预处理,指定了输入文件、分区数、输出前缀、分词器类型、分词器模型和工作线程数。数据集的许可证为odc-by。
提供机构:
ufotalent
原始信息汇总
数据集概述
数据来源
- 该数据集是C4数据集的预处理版本,具体来源于C4数据集的realnewslike子目录。
- C4数据集原始来源:https://huggingface.co/datasets/allenai/c4
预处理方法
- 使用Megatron-LM工具进行预处理,具体工具链接:https://github.com/NVIDIA/Megatron-LM/
- 预处理命令: python python tools/preprocess_data.py --input c4/realnewslike/c4-train.0000[0-9]-of-00512.json --partitions 8 --output-prefix preprocessed/c4 --tokenizer-type GPTSentencePieceTokenizer --tokenizer-model tokenizers/tokenizer.model --workers 8
许可证
- 该数据集遵循odc-by许可证。



