five

theojiang/bookcorpus-wiki-gte1.5_input_ids-mlm-seqlen256

收藏
Hugging Face2024-06-29 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/theojiang/bookcorpus-wiki-gte1.5_input_ids-mlm-seqlen256
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个主要特征:input_mask(输入掩码)、input_ids(输入ID)和actual_token_len(实际令牌长度)。数据集仅包含一个训练集分割,共有80,082,650个样本,总大小为247,615,553,800字节。下载大小为5,329,742,623字节。数据集的配置文件名为default,数据文件路径为data/train-*。

The dataset contains three main features: input_mask, input_ids, and actual_token_len. It includes only one training split with 80,082,650 samples, totaling 247,615,553,800 bytes in size. The download size is 5,329,742,623 bytes. The datasets configuration file is named default, and the data files are located at data/train-*.
提供机构:
theojiang
原始信息汇总

数据集概述

特征信息

  • input_mask: 序列类型为 int64
  • input_ids: 序列类型为 int32
  • actual_token_len: 序列类型为 int64

数据分割

  • train:
    • 字节数: 247615553800
    • 样本数: 80082650

数据集大小

  • 下载大小: 5329742623 字节
  • 数据集总大小: 247615553800 字节

配置信息

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作