five

malaysia-ai/mosaic-dedup-text-dataset

收藏
Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/malaysia-ai/mosaic-dedup-text-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用Mosaic格式存储,用于训练马来西亚语言模型。数据集分片通过特定的笔记本准备,使用了马来西亚AI的BPE tokenizer,并设置了4096的上下文长度。

This dataset is stored in Mosaic format for training Malaysian language models. The dataset shards are prepared via a dedicated notebook, using the BPE tokenizer developed by Malaysian AI, with the context length set to 4096.
提供机构:
malaysia-ai
原始信息汇总

Mosaic format for dedup text dataset to train Malaysian LLM

数据集概述

使用方法

  1. 克隆数据集: bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-dedup-text-dataset

  2. 加载数据集: python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings

    class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()

     def decode(self, data: bytes):
         return np.frombuffer(data, np.uint16)
    

    _encodings[uint16] = UInt16

    dataset = LocalDataset(mosaic-dedup-text-dataset) len(dataset)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作