BEE-spoke-data/falcon-refinedweb-100k_en-xlong
收藏Hugging Face2023-12-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/falcon-refinedweb-100k_en-xlong
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 3428758574
num_examples: 100000
download_size: 1984656482
dataset_size: 3428758574
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
source_datasets: tiiuae/falcon-refinedweb
language:
- en
license: odc-by
task_categories:
- text-generation
---
# BEE-spoke-data/falcon-refinedweb-100k_en-xlong
A sample from [falcon-refinedweb](https://huggingface.co/datasets/tiiuae/falcon-refinedweb):
- more than 4096 & less than 34,000 gpt4 tiktoken tokens
- `en` only (via fasttext-langdetect)
- 100k samples
提供机构:
BEE-spoke-data
原始信息汇总
BEE-spoke-data/falcon-refinedweb-100k_en-xlong
数据集信息
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 3428758574
- 样本数: 100000
- 下载大小: 1984656482
- 数据集大小: 3428758574
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
来源数据集
- 来源数据集: tiiuae/falcon-refinedweb
语言
- 语言: en
许可证
- 许可证: odc-by
任务类别
- 任务类别: text-generation
样本描述
- 样本数量: 100k
- 语言: en
- 每个样本的token数量: 超过4096且少于34,000 gpt4 tiktoken tokens



