BEE-spoke-data/fineweb-100_128k
收藏Hugging Face2024-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/fineweb-100_128k
下载链接
链接失效反馈官方服务:
资源简介:
数据集BEE-spoke-data/fineweb-100_128k包含来自HuggingFaceFW/fineweb的100个文档,每个文档至少有128,000个GPT-4 tiktoken标记。这些文档适用于文本生成和特征提取任务,主要使用英语,标签包括longboi、128k和long context,属于小于1K的规模类别。
数据集BEE-spoke-data/fineweb-100_128k包含来自HuggingFaceFW/fineweb的100个文档,每个文档至少有128,000个GPT-4 tiktoken标记。这些文档适用于文本生成和特征提取任务,主要使用英语,标签包括longboi、128k和long context,属于小于1K的规模类别。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 数据集名称: BEE-spoke-data/fineweb-100_128k
- 来源: 源自
HuggingFaceFW/fineweb - 文档数量: 100 篇
- 文档特征: 每篇文档包含至少 128,000 GPT-4 tiktoken 标记
数据结构
- 特征:
- 名称: text
- 数据类型: string
数据分割
- 训练集:
- 名称: train
- 示例数量: 100
- 数据大小: 58111149 字节
数据大小
- 下载大小: 32834294 字节
- 数据集大小: 58111149 字节
许可
- 许可证: odc-by
任务类别
- 文本生成
- 特征提取
语言
- 语言: en
标签
- 标签:
- longboi
- 128k
- long context
大小分类
- 大小分类: n<1K



