malaysia-ai/mosaic-instructions
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/malaysia-ai/mosaic-instructions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用Mosaic格式存储,用于训练马来西亚语言模型。数据集在GitHub上准备,使用了特定的分词器,并设置了4096的上下文长度。
该数据集使用Mosaic格式存储,用于训练马来西亚语言模型。数据集在GitHub上准备,使用了特定的分词器,并设置了4096的上下文长度。
提供机构:
malaysia-ai
原始信息汇总
马来西亚LLM训练指令数据集的马赛克格式
该数据集用于存储使用马赛克格式的数据分片。
数据集准备
- 数据集准备脚本位于:https://github.com/malaysia-ai/dedup-text-dataset/blob/main/pretrain-llm/combine-instructions.ipynb
- 使用分词器:https://huggingface.co/malaysia-ai/bpe-tokenizer
- 上下文长度为4096。
使用方法
-
克隆数据集: bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-instructions
-
加载数据集: python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings
class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()
def decode(self, data: bytes): return np.frombuffer(data, np.uint16)_encodings[uint16] = UInt16
dataset = LocalDataset(mosaic-instructions) len(dataset)



