israfelsr/tokenized_cc3m
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/israfelsr/tokenized_cc3m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为CLIP and T5 tokenization of CC3M,主要用于文本生成任务。数据集包含文本、CLIP IDs、CLIP注意力掩码、T5 IDs和T5注意力掩码等特征。数据集分为训练集和验证集,分别包含3,318,333和15,840个样本。
该数据集名为CLIP and T5 tokenization of CC3M,主要用于文本生成任务。数据集包含文本、CLIP IDs、CLIP注意力掩码、T5 IDs和T5注意力掩码等特征。数据集分为训练集和验证集,分别包含3,318,333和15,840个样本。
提供机构:
israfelsr
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 数据集大小: 1M<n<10M
- 任务类别: 文本生成
- 数据集名称: CLIP and T5 tokenization of CC3M
数据集特征
- 文本: 字符串类型
- clip_ids: 整数序列类型
- clip_attention_mask: 整数序列类型
- t5_ids: 整数序列类型
- t5_attention_mask: 整数序列类型
数据集分割
- 训练集:
- 字节数: 31520132297
- 样本数: 3318333
- 验证集:
- 字节数: 150459428
- 样本数: 15840
数据集大小
- 下载大小: 362821979
- 数据集总大小: 31670591725
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*



