BEE-spoke-data/peS2o-100k_en-xlong
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/peS2o-100k_en-xlong
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 3512277106
num_examples: 100000
download_size: 1748605733
dataset_size: 3512277106
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: odc-by
task_categories:
- text-generation
size_categories:
- 10K<n<100K
source_datasets: allenai/peS2o
---
# peS2o: 100k 'xlong' sample
A sample of 100k docs from `allenai/peS2o`:
- all docs filtered to be more than 4096 and less than 34,000 GPT-4 tiktoken tokens
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
数据集信息
-
特征:
- 名称: text
- 数据类型: string
-
分割:
- 名称: train
- 字节数: 3512277106
- 样本数: 100000
-
下载大小: 1748605733
-
数据集大小: 3512277106
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
许可证
- 许可证: odc-by
任务类别
- 任务类别: text-generation
大小类别
- 大小类别: 10K<n<100K
来源数据集
- 来源数据集: allenai/peS2o
数据集描述
- 样本数量: 100k
- 文档筛选条件: 文档长度在4096到34,000 GPT-4 tiktoken tokens之间



