vilm/refinedweb-1m-medium
收藏Hugging Face2024-01-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vilm/refinedweb-1m-medium
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 5454844691
num_examples: 1000000
download_size: 3346600355
dataset_size: 5454844691
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# RefinedWeb 1M Medium
Curated RefinedWeb with medium context length (2048 <= ctx_len <= 8192)
提供机构:
vilm
原始信息汇总
数据集概述
数据集名称
- RefinedWeb 1M Medium
数据集描述
- 经过筛选的RefinedWeb数据集,上下文长度中等(2048 <= ctx_len <= 8192)
数据特征
- 特征名称:text
- 数据类型:string
数据划分
- 划分名称:train
- 字节数:5454844691
- 样本数:1000000
数据集大小
- 下载大小:3346600355
- 数据集大小:5454844691
配置信息
- 配置名称:default
- 数据文件路径:data/train-*



