morning-light/gpt-oss20b-samples_normalized
收藏Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/morning-light/gpt-oss20b-samples_normalized
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# 关于数据集 #
- 数据集来源:[**gpt-oss20b-samples_deduplicated**](https://huggingface.co/datasets/piotr-ai/gpt-oss20b-samples_deduplicated)
- 数据集清洗流程:
```
使用ASCII以及fasttext判断乱码;
对数据集内标记语言进行删除(如Markdown、HTML等);
使用SimHash进行去重
多次前缀去重;
清洗字符数小于2000的数据
```
- 初始数据(转jsonl后):
```
样本总数: 183063;
总字符数: 4408366009;
平均长度: 24081.14 字符
```
- 乱码清洗和去除标记语言后:
```
样本总数: 177582;
总字符数: 3463945036;
平均长度: 19506.17 字符
```
- 相似度去重、去前缀后(十分之一多点的样本数据):
```
样本总数: 17859;
总字符数: 189850733;
平均长度: 10630.54 字符
```
- 最后处理完的全部数据
```
样本总数: 141723;
总字符数: 1796741085;
平均长度: 12677.84 字符
```
提供机构:
morning-light



