gmongaras/Pile_Llama_Tokenized
收藏Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/gmongaras/Pile_Llama_Tokenized
下载链接
链接失效反馈官方服务:
资源简介:
基于EleutherAI的the_pile_deduplicated数据集的tokenized版本,使用了meta-llama/Llama-2-7b-hf的llama tokenizer进行处理。
基于EleutherAI的the_pile_deduplicated数据集的tokenized版本,使用了meta-llama/Llama-2-7b-hf的llama tokenizer进行处理。
提供机构:
gmongaras
原始信息汇总
数据集概述
数据集来源
- 数据集来自
https://huggingface.co/datasets/gmongaras/EleutherAI_the_pile_deduplicated。
数据集处理
- 使用
meta-llama/Llama-2-7b-hf的 llama 分词器进行分词处理。 - 分词器可通过
transformers.AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")加载。
原始数据集
- 原始数据集位于
https://huggingface.co/datasets/EleutherAI/the_pile_deduplicated。



