toramaru-u/cc100-ja-nsp-32
收藏Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/toramaru-u/cc100-ja-nsp-32
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于训练模型的数据,主要特征包括索引(idx)、下一句标签(next_sentence_label)、句子A(sentence_a)和句子B(sentence_b)。数据集分为训练集,包含127,086,714个示例,总大小为31,150,074,680字节。下载大小为19,813,849,727字节。
This dataset contains data for training models, with main features including index (idx), next sentence label (next_sentence_label), sentence A (sentence_a), and sentence B (sentence_b). The dataset is divided into a training set, containing 127,086,714 examples, with a total size of 31,150,074,680 bytes. The download size is 19,813,849,727 bytes.
提供机构:
toramaru-u
原始信息汇总
数据集概述
数据集特征
- idx: 整数类型 (
int64) - next_sentence_label: 整数类型 (
int64) - sentence_a: 字符串类型 (
string) - sentence_b: 字符串类型 (
string)
数据集分割
- train:
- 样本数量: 127,086,714
- 数据大小: 31,150,074,680 字节
数据集大小
- 下载大小: 19,813,849,727 字节
- 总数据大小: 31,150,074,680 字节
配置
- config_name: default
- 数据文件路径: data/train-*



