five

ufotalent/zero_bubble_sample_dataset

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ufotalent/zero_bubble_sample_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是C4数据集中realnewslike子目录的预处理版本。使用了Megatron-LM工具进行预处理,指定了输入文件、分区数、输出前缀、分词器类型、分词器模型和工作线程数。数据集的许可证为odc-by。

这是C4数据集中realnewslike子目录的预处理版本。使用了Megatron-LM工具进行预处理,指定了输入文件、分区数、输出前缀、分词器类型、分词器模型和工作线程数。数据集的许可证为odc-by。
提供机构:
ufotalent
原始信息汇总

数据集概述

数据来源

预处理方法

  • 使用Megatron-LM工具进行预处理,具体工具链接:https://github.com/NVIDIA/Megatron-LM/
  • 预处理命令: python python tools/preprocess_data.py --input c4/realnewslike/c4-train.0000[0-9]-of-00512.json --partitions 8 --output-prefix preprocessed/c4 --tokenizer-type GPTSentencePieceTokenizer --tokenizer-model tokenizers/tokenizer.model --workers 8

许可证

  • 该数据集遵循odc-by许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作