darshanmakwana/cc3m_tokenized
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/darshanmakwana/cc3m_tokenized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Conceptual Captions (CC3M),包含约330万张图像和对应的标题。图像使用字节跳动开发的1d-tokenizer进行编码,将256x256的图像转换为32个token,同时保持较高的保真度。文本部分则基于BPE(字节对编码)训练了一个词汇量为30K的分词器,其中4096个token用于表示图像,9个用于特殊标记,剩余的25895个token用于文本。数据集分为训练集和验证集,训练集包含2,905,954个样本,验证集包含13,443个样本。该数据集用于训练自回归模型进行文本到图像的生成任务。
该数据集来源于Conceptual Captions (CC3M),包含约330万张图像和对应的标题。图像使用字节跳动开发的1d-tokenizer进行编码,将256x256的图像转换为32个token,同时保持较高的保真度。文本部分则基于BPE(字节对编码)训练了一个词汇量为30K的分词器,其中4096个token用于表示图像,9个用于特殊标记,剩余的25895个token用于文本。数据集分为训练集和验证集,训练集包含2,905,954个样本,验证集包含13,443个样本。该数据集用于训练自回归模型进行文本到图像的生成任务。
提供机构:
darshanmakwana



