five

nicholasKluge/Pt-Corpus-Instruct-tokenized-small

收藏
Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/Pt-Corpus-Instruct-tokenized-small
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个经过分词处理的葡萄牙语语料库,使用了TeenyTinyLlama分词器,包含了3.7B个token。所有序列的长度均为2048个token。数据集用于训练巴西葡萄牙语的微型语言模型,并在相关论文中有所描述。数据集包含训练集和测试集,分别有约1.8M和18K个样本。数据集的字段包括input_ids、attention_mask和labels,分别表示token序列、注意力掩码和标签序列。

该数据集是一个经过分词处理的葡萄牙语语料库,使用了TeenyTinyLlama分词器,包含了3.7B个token。所有序列的长度均为2048个token。数据集用于训练巴西葡萄牙语的微型语言模型,并在相关论文中有所描述。数据集包含训练集和测试集,分别有约1.8M和18K个样本。数据集的字段包括input_ids、attention_mask和labels,分别表示token序列、注意力掩码和标签序列。
提供机构:
nicholasKluge
原始信息汇总

葡萄牙语-Corpus Instruct (tokenized small) 数据集概述

数据集描述

数据集摘要

该数据集是 Pt-Corpus Instruct 数据集 的一个小子集(3.7B 个 tokens)的 tokenized 版本,使用 TeenyTinyLlama tokenizer 进行处理。所有序列长度均为 2048 个 tokens。该数据集用于 "TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese"。

语言

葡萄牙语。

数据集结构

数据实例

数据集包含以下特征:

  • input_ids: 序列的 token 标识。
  • attention_mask: 指示填充位置的二进制张量。
  • labels: 序列的 token 标识。

数据字段

python { "input_ids": [ 1026, 1531, 1009, 8067,...], "attention_mask": [1, 1, 1, 1, ...], "labels": [ 1026, 1531, 1009, 8067,...] }

数据分割

数据集包含以下分割:

  • train: 约 1.8M 个样本。
  • test: 18K 个样本。

附加信息

数据集策展人

Nicholas Kluge Corrêa

引用信息

latex @misc{correa24ttllama, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={arXiv preprint arXiv:2401.16640}, year={2024} }

@misc{correa24ttllama, doi = {10.1016/j.mlwa.2024.100558}, url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343}, title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese}, author = {Corr{^e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar}, journal={Machine Learning With Applications}, publisher = {Springer}, year={2024} }

贡献

如果您想贡献,请联系 nicholas@airespucrs.org

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作