Saibo-creator/bookcorpus_compact_1024_shard2_of_10_meta
收藏Hugging Face2023-01-12 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Saibo-creator/bookcorpus_compact_1024_shard2_of_10_meta
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为bookcorpus_compact_1024_shard2_meta,包含文本、概念与偏移、CID排列、模式长度、主题实体掩码和文本长度等特征。数据集分为训练集,包含61,605个示例,总大小为7,742,678,868字节。下载大小为1,715,122,126字节。
提供机构:
Saibo-creator
原始信息汇总
数据集概述
数据集信息
-
特征列表:
text:文本数据,数据类型为字符串。concept_with_offset:带有偏移的概念数据,数据类型为字符串。cid_arrangement:CID排列数据,数据类型为整数序列。schema_lengths:模式长度数据,数据类型为长整数序列。topic_entity_mask:主题实体掩码数据,数据类型为长整数序列。text_lengths:文本长度数据,数据类型为长整数序列。
-
数据分割:
train:训练集,包含7742678868字节的数据和61605个样本。
-
数据集大小:
- 下载大小:1715122126字节
- 数据集大小:7742678868字节



