five

morning-light/gpt-oss20b-samples_normalized

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/morning-light/gpt-oss20b-samples_normalized
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit --- # 关于数据集 # - 数据集来源:[**gpt-oss20b-samples_deduplicated**](https://huggingface.co/datasets/piotr-ai/gpt-oss20b-samples_deduplicated) - 数据集清洗流程: ``` 使用ASCII以及fasttext判断乱码; 对数据集内标记语言进行删除(如Markdown、HTML等); 使用SimHash进行去重 多次前缀去重; 清洗字符数小于2000的数据 ``` - 初始数据(转jsonl后): ``` 样本总数: 183063; 总字符数: 4408366009; 平均长度: 24081.14 字符 ``` - 乱码清洗和去除标记语言后: ``` 样本总数: 177582; 总字符数: 3463945036; 平均长度: 19506.17 字符 ``` - 相似度去重、去前缀后(十分之一多点的样本数据): ``` 样本总数: 17859; 总字符数: 189850733; 平均长度: 10630.54 字符 ``` - 最后处理完的全部数据 ``` 样本总数: 141723; 总字符数: 1796741085; 平均长度: 12677.84 字符 ```
提供机构:
morning-light
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作