BEE-spoke-data/falcon-refinedweb-1M_en_medium
收藏Hugging Face2024-01-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/falcon-refinedweb-1M_en_medium
下载链接
链接失效反馈官方服务:
资源简介:
BEE-spoke-data/falcon-refinedweb-1M_en_medium数据集是从falcon-refinedweb数据集中提取的一个样本,包含100万个英文文本样本,文本长度介于512到8192个GPT-4 tiktoken tokens之间。该数据集主要用于文本生成任务,提供了详细的token数量统计,包括平均、标准差、最小、最大及各百分位数。
BEE-spoke-data/falcon-refinedweb-1M_en_medium数据集是从falcon-refinedweb数据集中提取的一个样本,包含100万个英文文本样本,文本长度介于512到8192个GPT-4 tiktoken tokens之间。该数据集主要用于文本生成任务,提供了详细的token数量统计,包括平均、标准差、最小、最大及各百分位数。
提供机构:
BEE-spoke-data
原始信息汇总
BEE-spoke-data/falcon-refinedweb-1M_en_medium
数据集概述
- 特征:
text: 数据类型为字符串。
- 数据分割:
train: 包含1,000,000个样本,总字节数为5,454,844,691。
- 下载大小: 3,344,664,045字节。
- 数据集大小: 5,454,844,691字节。
- 配置:
default: 数据文件路径为data/train-*。
- 源数据集:
tiiuae/falcon-refinedweb。 - 语言: 仅包含英语。
- 许可证:
odc-by。 - 任务类别: 文本生成。
详细信息
- 样本数量: 1,000,000个样本。
- GPT-4 tiktoken 令牌计数:
- 令牌数量范围: 513至8191。
- 平均令牌数: 1197.179246。
- 总令牌数: 1197.18 M。



