nicholasKluge/Pt-Corpus-tokenized
收藏Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/Pt-Corpus-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用TeenyTinyLlama tokenizer对Portuguese-Corpus数据集进行分词后的版本,所有序列长度为2048个token。该数据集用于训练巴西葡萄牙语的微型语言模型。数据集包含input_ids、attention_mask和labels三个特征,分别表示token序列、填充位置的二进制张量和标签序列。数据集分为train和test两个部分,分别包含约200万和2万个样本。
该数据集是使用TeenyTinyLlama tokenizer对Portuguese-Corpus数据集进行分词后的版本,所有序列长度为2048个token。该数据集用于训练巴西葡萄牙语的微型语言模型。数据集包含input_ids、attention_mask和labels三个特征,分别表示token序列、填充位置的二进制张量和标签序列。数据集分为train和test两个部分,分别包含约200万和2万个样本。
提供机构:
nicholasKluge
原始信息汇总
数据集概述
数据集信息
特征
- input_ids: 序列类型为
int32 - attention_mask: 序列类型为
int8 - labels: 序列类型为
int64
数据分割
- train: 字节数为
53397189200.0,样本数为2004700 - test: 字节数为
532720000.0,样本数为20000
数据集大小
- 下载大小:
16064350610字节 - 数据集大小:
53929909200.0字节
配置
- default:
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
许可证
- other
任务类别
- text-generation
语言
- pt
标签
- portuguese
- language-modeling
数据集名称
- Pt-Corpus tokenized
数据集大小类别
- 1M<n<10M



