five

Ba2han/pt-1501-tokenized-2.2

收藏
Hugging Face2026-01-15 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Ba2han/pt-1501-tokenized-2.2
下载链接
链接失效反馈
官方服务:
资源简介:
--- tags: - tokenized - llama-3.2 --- # Tokenized Dataset: pt-1501-tokenized-2 **Base Tokenizer:** `unsloth/Llama-3.2-1B` **Max Length:** `4000` **Last Update:** 2026-01-15 18:51:50 ## Statistics | Metric | Count | | :--- | :--- | | Total Input Rows | 1,740,000 | | Deduplicated (Dropped) | 7,137 | | Final Rows Kept | 1,627,317 | | **Total Tokens** | **1,190,651,989** | ## Dataset Breakdown | Dataset Source | Tokens Contributed | | :--- | :--- | | HuggingFaceFW/finewiki | 1,190,651,989 |
提供机构:
Ba2han
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作