BramVanroy/fietje-2-data

Name: BramVanroy/fietje-2-data
Creator: BramVanroy
Published: 2024-06-04 12:56:26
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/fietje-2-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练fietje-2模型，包含约280亿个词元，这些词元主要来自荷兰语部分的Wikipedia和CulturaX数据集。数据集的特征包括input_ids、attention_mask和labels，分别表示输入标识符、注意力掩码和标签。数据集分为训练集和测试集，训练集包含13768540个样本，测试集包含18015个样本。

提供机构：

BramVanroy

原始信息汇总

数据集概述

数据集特征

input_ids：整数序列，类型为int32。
attention_mask：整数序列，类型为int8。
labels：整数序列，类型为int64。

数据集分割

训练集：
- 大小：366738831440 字节
- 样本数：13768540
测试集：
- 大小：479847540 字节
- 样本数：18015

数据集大小

下载大小：105689403490 字节
总大小：367218678980 字节

数据文件配置

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 测试集：data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集