jtatman/sciphi-mini-600m-unsloth-processed
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jtatman/sciphi-mini-600m-unsloth-processed
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: input_ids
sequence: int32
- name: attention_mask
sequence: int8
splits:
- name: train
num_bytes: 232968067.11257112
num_examples: 26575
- name: val
num_bytes: 25887288.88742888
num_examples: 2953
download_size: 96906399
dataset_size: 258855356.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: val
path: data/val-*
---
数据集信息:
特征项:
- 文本(text)字段:数据类型为字符串型
- 输入标识(input_ids)字段:为int32类型的序列
- 注意力掩码(attention_mask)字段:为int8类型的序列
数据集划分:
- 训练集(train):字节数为232968067.11257112,样本量为26575
- 验证集(val):字节数为25887288.88742888,样本量为2953
下载大小:96906399 字节
数据集总大小:258855356.0 字节
配置项:
- 默认配置(default):数据文件对应关系如下:
- 训练集划分对应数据文件路径为"data/train-*"
- 验证集划分对应数据文件路径为"data/val-*"
提供机构:
jtatman
原始信息汇总
数据集概述
数据集特征
- text: 数据类型为字符串。
- input_ids: 数据类型为整数序列,具体为32位整数。
- attention_mask: 数据类型为整数序列,具体为8位整数。
数据集分割
- 训练集 (train):
- 示例数量: 26575
- 数据大小: 232968067.11257112字节
- 验证集 (val):
- 示例数量: 2953
- 数据大小: 25887288.88742888字节
数据集大小
- 下载大小: 96906399字节
- 数据集总大小: 258855356.0字节
数据文件配置
- 默认配置 (default):
- 训练集路径:
data/train-* - 验证集路径:
data/val-*
- 训练集路径:



