five

malaysia-ai/mosaic-instructions

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/malaysia-ai/mosaic-instructions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用Mosaic格式存储,用于训练马来西亚语言模型。数据集在GitHub上准备,使用了特定的分词器,并设置了4096的上下文长度。

该数据集使用Mosaic格式存储,用于训练马来西亚语言模型。数据集在GitHub上准备,使用了特定的分词器,并设置了4096的上下文长度。
提供机构:
malaysia-ai
原始信息汇总

马来西亚LLM训练指令数据集的马赛克格式

该数据集用于存储使用马赛克格式的数据分片。

数据集准备

  1. 数据集准备脚本位于:https://github.com/malaysia-ai/dedup-text-dataset/blob/main/pretrain-llm/combine-instructions.ipynb
  2. 使用分词器:https://huggingface.co/malaysia-ai/bpe-tokenizer
  3. 上下文长度为4096。

使用方法

  1. 克隆数据集: bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-instructions

  2. 加载数据集: python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings

    class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()

     def decode(self, data: bytes):
         return np.frombuffer(data, np.uint16)
    

    _encodings[uint16] = UInt16

    dataset = LocalDataset(mosaic-instructions) len(dataset)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作