BramVanroy/fietje-2-data
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/fietje-2-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练fietje-2模型,包含约280亿个词元,这些词元主要来自荷兰语部分的Wikipedia和CulturaX数据集。数据集的特征包括input_ids、attention_mask和labels,分别表示输入标识符、注意力掩码和标签。数据集分为训练集和测试集,训练集包含13768540个样本,测试集包含18015个样本。
该数据集用于训练fietje-2模型,包含约280亿个词元,这些词元主要来自荷兰语部分的Wikipedia和CulturaX数据集。数据集的特征包括input_ids、attention_mask和labels,分别表示输入标识符、注意力掩码和标签。数据集分为训练集和测试集,训练集包含13768540个样本,测试集包含18015个样本。
提供机构:
BramVanroy
原始信息汇总
数据集概述
数据集特征
- input_ids:整数序列,类型为
int32。 - attention_mask:整数序列,类型为
int8。 - labels:整数序列,类型为
int64。
数据集分割
- 训练集:
- 大小:366738831440 字节
- 样本数:13768540
- 测试集:
- 大小:479847540 字节
- 样本数:18015
数据集大小
- 下载大小:105689403490 字节
- 总大小:367218678980 字节
数据文件配置
- 配置名称:default
- 数据文件路径:
- 训练集:
data/train-* - 测试集:
data/test-*
- 训练集:



