greyfoss/doupo-dataset
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/greyfoss/doupo-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为doupo-dataset,包含用于训练和验证的数据,分别存储在不同的文件中。数据集主要包含三个特征:input_ids、token_type_ids和attention_mask,这些特征均为序列数据类型。训练集有6936个样本,验证集有366个样本。数据集的总大小约为22.5MB,下载大小约为6.2MB。
该数据集名为doupo-dataset,包含用于训练和验证的数据,分别存储在不同的文件中。数据集主要包含三个特征:input_ids、token_type_ids和attention_mask,这些特征均为序列数据类型。训练集有6936个样本,验证集有366个样本。数据集的总大小约为22.5MB,下载大小约为6.2MB。
提供机构:
greyfoss
原始信息汇总
数据集概述
配置
- 默认配置 (
default)- 数据文件路径:
- 训练集 (
train):data/train-* - 验证集 (
valid):data/valid-*
- 训练集 (
- 数据文件路径:
数据特征
input_ids: 序列类型,数据类型为int32token_type_ids: 序列类型,数据类型为int8attention_mask: 序列类型,数据类型为int8
数据分割
- 训练集 (
train)- 字节数: 21387729.172121048
- 样本数: 6936
- 验证集 (
valid)- 字节数: 1128591.2452416816
- 样本数: 366
数据集大小
- 下载大小: 6213826 字节
- 数据集大小: 22516320.41736273 字节



