BEE-spoke-data/fineweb-100k_en-med

Name: BEE-spoke-data/fineweb-100k_en-med
Creator: BEE-spoke-data
Published: 2024-04-25 18:35:00
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BEE-spoke-data/fineweb-100k_en-med

下载链接

链接失效反馈

官方服务：

资源简介：

fineweb 100k样本数据集是一个中等长度的文本数据集，包含100,000个训练样本，每个样本的文本长度在384到2048个GPT4 tiktoken tokens之间。该数据集适用于文本生成和填充掩码任务，语言为英语，来源于HuggingFaceFW/fineweb。数据集大小为388,080,532字节，下载大小为240,196,680字节。

提供机构：

BEE-spoke-data

原始信息汇总

数据集概述

基本信息

数据集名称: fineweb 100k sample
数据集大小: 388080532字节
下载大小: 240196680字节
特征数量: 1
- 名称: text
- 数据类型: string

数据分割

训练集
- 名称: train
- 示例数量: 100000
- 字节数: 388080532

许可信息

许可证: odc-by

任务类别

text-generation
fill-mask

语言

来源数据集

HuggingFaceFW/fineweb

大小类别

100K<n<1M

文本长度信息

最小长度: 384 GPT4 tiktoken tokens
最大长度: 2048 GPT4 tiktoken tokens

5,000+

优质数据集

54 个

任务类型

进入经典数据集