sahlebrahim/tokenized_sql_dataset
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sahlebrahim/tokenized_sql_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个主要特征:input_ids(输入ID序列)、attention_mask(注意力掩码序列)和labels(标签序列)。数据集分为训练集、验证集和测试集,分别包含64576、27675和27676个样本。数据集的下载大小为19555205字节,总大小为1597907348字节。
The dataset contains three main features: input_ids (sequence of input IDs), attention_mask (sequence of attention masks), and labels (sequence of labels). The dataset is divided into training, validation, and test sets, containing 64576, 27675, and 27676 samples respectively. The download size of the dataset is 19555205 bytes, and the total size is 1597907348 bytes.
提供机构:
sahlebrahim
原始信息汇总
数据集概述
特征
- input_ids: 序列类型为
int32 - attention_mask: 序列类型为
int8 - labels: 序列类型为
int64
数据分割
- train:
- 字节数: 860410624
- 样本数: 64576
- validation:
- 字节数: 368741700
- 样本数: 27675
- test:
- 字节数: 368755024
- 样本数: 27676
数据集大小
- 下载大小: 19555205 字节
- 总大小: 1597907348 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:



