EliMC/TxT360-5M-sample-en
收藏Hugging Face2025-12-05 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/EliMC/TxT360-5M-sample-en
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: odc-by
size_categories:
- 1M<n<10M
task_categories:
- text-generation
- feature-extraction
dataset_info:
- config_name: default
features:
- name: text
dtype: string
- name: subset
dtype: string
splits:
- name: train
num_bytes: 22784812902
num_examples: 5000000
download_size: 13920512648
dataset_size: 22784812902
- config_name: mdformat
features:
- name: text
dtype: string
- name: subset
dtype: string
splits:
- name: train
num_bytes: 22803501521
num_examples: 5000000
download_size: 13828649999
dataset_size: 22803501521
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- config_name: mdformat
data_files:
- split: train
path: mdformat/train-*
---
# BEE-spoke-data/TxT360-5M-sample-en
english only sample from [LLM360/TxT360](https://hf.co/datasets/LLM360/TxT360):
- min length 256 GPT-4 tokens
- max length 24576 GPT-4 tokens
GPT-4 tiktoken token count:
```
token_count
count 5.000000e+06
mean 1.003614e+03
std 1.424231e+03
min 2.570000e+02
25% 4.020000e+02
50% 6.220000e+02
75% 1.050000e+03
max 2.457400e+04
```
- Total count: 5018.07 M tokens
---
语言:
- 英语
许可证:odc-by
样本规模类别:
- 100万<样本数<1000万
任务类别:
- 文本生成
- 特征提取
数据集信息:
- 配置名称:default
特征:
- 字段名:text,数据类型:字符串
- 字段名:subset,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节数:22784812902,样本数量:5000000
下载大小:13920512648
数据集总大小:22784812902
- 配置名称:mdformat
特征:
- 字段名:text,数据类型:字符串
- 字段名:subset,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节数:22803501521,样本数量:5000000
下载大小:13828649999
数据集总大小:22803501521
配置项:
- 配置名称:default
数据文件:
- 划分:训练集,路径:data/train-*
- 配置名称:mdformat
数据文件:
- 划分:训练集,路径:mdformat/train-*
---
# BEE-spoke-data/TxT360-5M-sample-en
该数据集为源自[LLM360/TxT360](https://hf.co/datasets/LLM360/TxT360)的纯英语样本:
- 最小长度:256个GPT-4 Token
- 最大长度:24576个GPT-4 Token
GPT-4 tiktoken 分词统计结果如下:
token_count
count 5.000000e+06
mean 1.003614e+03
std 1.424231e+03
min 2.570000e+02
25% 4.020000e+02
50% 6.220000e+02
75% 1.050000e+03
max 2.457400e+04
- 总Token数:5018.07百万(即50.1807亿)
提供机构:
EliMC



