malaysia-ai/mosaic-dedup-text-dataset

Name: malaysia-ai/mosaic-dedup-text-dataset
Creator: malaysia-ai
Published: 2023-12-01 02:16:36
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/malaysia-ai/mosaic-dedup-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用Mosaic格式存储，用于训练马来西亚语言模型。数据集分片通过特定的笔记本准备，使用了马来西亚AI的BPE tokenizer，并设置了4096的上下文长度。

This dataset is stored in Mosaic format for training Malaysian language models. The dataset shards are prepared via a dedicated notebook, using the BPE tokenizer developed by Malaysian AI, with the context length set to 4096.

提供机构：

malaysia-ai

原始信息汇总

Mosaic format for dedup text dataset to train Malaysian LLM

数据集概述

语言: 马来语 (ms)
格式: Mosaic 格式
上下文长度: 4096
预处理: 使用 combine-dedup-text-dataset-4096.ipynb 进行准备
分词器: malaysia-ai/bpe-tokenizer

使用方法

克隆数据集: bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-dedup-text-dataset
加载数据集: python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings

class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()
```
 def decode(self, data: bytes):
     return np.frombuffer(data, np.uint16)
```
_encodings[uint16] = UInt16

dataset = LocalDataset(mosaic-dedup-text-dataset) len(dataset)

5,000+

优质数据集

54 个

任务类型

进入经典数据集