BEE-spoke-data/fineweb-100k_en-med
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/fineweb-100k_en-med
下载链接
链接失效反馈官方服务:
资源简介:
fineweb 100k样本数据集是一个中等长度的文本数据集,包含100,000个训练样本,每个样本的文本长度在384到2048个GPT4 tiktoken tokens之间。该数据集适用于文本生成和填充掩码任务,语言为英语,来源于HuggingFaceFW/fineweb。数据集大小为388,080,532字节,下载大小为240,196,680字节。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 数据集名称: fineweb 100k sample
- 数据集大小: 388080532字节
- 下载大小: 240196680字节
- 特征数量: 1
- 名称: text
- 数据类型: string
数据分割
- 训练集
- 名称: train
- 示例数量: 100000
- 字节数: 388080532
许可信息
- 许可证: odc-by
任务类别
- text-generation
- fill-mask
语言
- en
来源数据集
- HuggingFaceFW/fineweb
大小类别
- 100K<n<1M
文本长度信息
- 最小长度: 384 GPT4 tiktoken tokens
- 最大长度: 2048 GPT4 tiktoken tokens



