malteos/oscar-stats
收藏Hugging Face2024-02-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/malteos/oscar-stats
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
---
Most common domains in [Colossal OSCAR v1](https://huggingface.co/datasets/oscar-corpus/colossal-oscar-1.0) (English subset) according to tokens.
Tokens are estimated based on total bytes and the [BLOOM tokenizer](https://huggingface.co/bigscience/bloom).
提供机构:
malteos
原始信息汇总
数据集概述
许可证
- Apache 2.0
语言
- 英语(en)
描述
- 数据集包含Colossal OSCAR v1(英语子集)中最常见的领域,根据标记进行统计。
- 标记的估计基于总字节数和BLOOM tokenizer。



