ZelaAI/minipile_512_streamable
收藏Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZelaAI/minipile_512_streamable
下载链接
链接失效反馈官方服务:
资源简介:
数据集名为Streamable Minipile Tokenized,主要用于文本生成任务。数据集的大小在1B到10B之间。该数据集是基于JeanKaddour/minipile原始数据集进行处理的,使用了GPTNeoX分词器进行分词,并将数据分割成长度为513的序列,其中512用于输入,512用于目标ID。
数据集名为Streamable Minipile Tokenized,主要用于文本生成任务。数据集的大小在1B到10B之间。该数据集是基于JeanKaddour/minipile原始数据集进行处理的,使用了GPTNeoX分词器进行分词,并将数据分割成长度为513的序列,其中512用于输入,512用于目标ID。
提供机构:
ZelaAI
原始信息汇总
数据集概述
任务类别
- 文本生成(text-generation)
美观名称
- Streamable Minipile Tokenized
大小类别
- 1B<n<10B(数据集大小在10亿到100亿之间)
数据集准备
- 使用GPTNeoX tokenizer进行tokenization
- 分割成序列长度为513,设计用于512输入和512目标ID
原始数据集
- 原始数据集链接:JeanKaddour/minipile



