malaysia-ai/mosaic-combine-all
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/malaysia-ai/mosaic-combine-all
下载链接
链接失效反馈官方服务:
资源简介:
该存储库用于使用Mosaic格式存储数据集分片,以便训练马来西亚的大语言模型(LLM)。数据集准备过程在特定GitHub链接中描述,使用了特定的BPE tokenizer,并且上下文长度为4096。
该存储库用于使用Mosaic格式存储数据集分片,以便训练马来西亚的大语言模型(LLM)。数据集准备过程在特定GitHub链接中描述,使用了特定的BPE tokenizer,并且上下文长度为4096。
提供机构:
malaysia-ai
原始信息汇总
数据集概述
数据集描述
- 名称: mosaic-combine-all
- 语言: 马来语 (ms)
- 格式: 马赛克格式
- 目的: 用于训练马来西亚的大型语言模型 (LLM)
数据集准备
- 准备脚本: combine-all.ipynb
- 分词器: bpe-tokenizer
- 上下文长度: 4096
使用方法
-
克隆数据集: bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-combine-all
-
加载数据集: python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings
class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()
def decode(self, data: bytes): return np.frombuffer(data, np.uint16)_encodings[uint16] = UInt16
dataset = LocalDataset(mosaic-combine-all) len(dataset)



