rhdeng/tigerbot_pretrain_zh
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/rhdeng/tigerbot_pretrain_zh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括数据类型(dataType)、标题(title)、内容(content)、唯一键(uniqueKey)、标题唯一键(titleUkey)和ID(id)。数据集被分割为训练集(train),包含6,762,009个样本,总大小为23,234,036,579字节。下载大小为15,207,985,234字节。
This dataset includes multiple feature fields such as data type (dataType), title (title), content (content), unique key (uniqueKey), title unique key (titleUkey), and ID (id). The dataset is split into a training set (train) containing 6,762,009 samples with a total size of 23,234,036,579 bytes. The download size is 15,207,985,234 bytes.
提供机构:
rhdeng
原始信息汇总
数据集概述
数据集信息
特征
- dataType: 数据类型,字符串类型。
- title: 标题,字符串类型。
- content: 内容,字符串类型。
- uniqueKey: 唯一键,字符串类型。
- titleUkey: 标题唯一键,字符串类型。
- id: 标识符,整数类型。
数据分割
- train: 训练集,包含6,762,009个样本,占用23,234,036,579字节。
数据集大小
- 下载大小: 15,207,985,234字节。
- 数据集大小: 23,234,036,579字节。
配置
- default: 默认配置,包含训练集数据文件路径为
data/train-*。



