toramaru-u/cc100-ja-nsp-32

Name: toramaru-u/cc100-ja-nsp-32
Creator: toramaru-u
Published: 2024-06-27 14:48:32
License: 暂无描述

Hugging Face2024-06-27 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/toramaru-u/cc100-ja-nsp-32

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练模型的数据，主要特征包括索引（idx）、下一句标签（next_sentence_label）、句子A（sentence_a）和句子B（sentence_b）。数据集分为训练集，包含127,086,714个示例，总大小为31,150,074,680字节。下载大小为19,813,849,727字节。

This dataset contains data for training models, with main features including index (idx), next sentence label (next_sentence_label), sentence A (sentence_a), and sentence B (sentence_b). The dataset is divided into a training set, containing 127,086,714 examples, with a total size of 31,150,074,680 bytes. The download size is 19,813,849,727 bytes.

提供机构：

toramaru-u

原始信息汇总

数据集概述

数据集特征

idx: 整数类型 (int64)
next_sentence_label: 整数类型 (int64)
sentence_a: 字符串类型 (string)
sentence_b: 字符串类型 (string)

数据集分割

train:
- 样本数量: 127,086,714
- 数据大小: 31,150,074,680 字节

数据集大小

下载大小: 19,813,849,727 字节
总数据大小: 31,150,074,680 字节

配置

config_name: default
- 数据文件路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集