BEE-spoke-data/SaunaWeb-50k

Name: BEE-spoke-data/SaunaWeb-50k
Creator: BEE-spoke-data
Published: 2024-06-04 18:14:18
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BEE-spoke-data/SaunaWeb-50k

下载链接

链接失效反馈

官方服务：

资源简介：

BEE-spoke-data/SaunaWeb-50k数据集是从HuggingFaceFW/fineweb数据集中筛选出包含单词sauna的样本。该数据集包含50,000个训练样本，总大小为320,819,438字节，下载大小为198,186,886字节。数据集的特征为文本（text），数据类型为字符串（string）。数据集的任务类别包括文本生成（text-generation）和填充掩码（fill-mask）。此外，README还提供了GPT-4 tiktoken的token统计信息，包括平均值、标准差、最小值、最大值等。

提供机构：

BEE-spoke-data

原始信息汇总

数据集概述

基本信息

数据集名称: BEE-spoke-data/SaunaWeb-50k
数据集大小: 320819438 字节
下载大小: 198186886 字节
训练集大小: 320819438 字节
训练集样本数: 50000

特征

text: 字符串类型

配置

配置名称: default
数据文件路径: data/train-*

许可证

许可证: odc-by

大小分类

数据集大小分类: 10K<n<100K

源数据集

源数据集: HuggingFaceFW/fineweb

任务分类

任务分类:
- text-generation
- fill-mask

样本统计

总令牌数: 71.44 M tokens
令牌统计:
- 总数: 50000
- 平均数: 1428.86602
- 标准差: 4498.05023
- 最小值: 49
- 25% 分位数: 325
- 50% 分位数: 628.5
- 75% 分位数: 1238.25
- 最大值: 147973

5,000+

优质数据集

54 个

任务类型

进入经典数据集