NousResearch/dolma-v1_7-30B-tokenized-llama3-nanoset

Name: NousResearch/dolma-v1_7-30B-tokenized-llama3-nanoset
Creator: NousResearch
Published: 2024-05-20 01:36:01
License: 暂无描述

Hugging Face2024-05-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/NousResearch/dolma-v1_7-30B-tokenized-llama3-nanoset

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma数据集是一个用于文本生成任务的大型语言模型数据集，包含超过1000亿个标记。它是NousResearch/dolma-v1_7-30B数据集的Llama 3版本，被分割成10GB的块以便于处理。数据集可以直接使用numpy进行读取，或者通过命令行工具重新组合分块文件。

提供机构：

NousResearch

原始信息汇总

数据集概述

重组数据: shell cat dolma-v1_7-30B-nanoset-l3_input_ids.npy.* > dolma-v1_7-30B-nanoset-l3_input_ids.npy
直接使用: python import numpy as np

dataset_buffer_mmap = np.memmap("dolma-v1_7-30B-nanoset-l3_input_ids.npy", mode="r", order="C", dtype=np.int32) dataset_buffer = memoryview(dataset_buffer_mmap) dataset_number_of_tokens = int(len(dataset_buffer))

5,000+

优质数据集

54 个

任务类型

进入经典数据集