five

Ba2han/1202-tokenized-2

收藏
Hugging Face2026-02-13 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Ba2han/1202-tokenized-2
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: input_ids sequence: int32 --- # Tokenized Dataset (1202-2) **Base Tokenizer:** `unsloth/Llama-3.2-1B` ## Dataset Statistics | Metric | Value | | :--- | :--- | | **Total Rows** | 3,321,874 | | **Total Tokens** | 2,248,491,708 | ## Processing Notes - **Shuffled**: Yes (Seed 42) - **Format**: Parquet files containing `input_ids` only. - **Split Size**: 100k rows per file. ## Source Compositions 1. **HuggingFaceFW/finetranslations-edu** (tur_Latn & tuk_Latn) 2. **Ba2han/dataset_repo** (Wiki Cleaned) 3. **mlx-community/recycling_the_web-400K** 4. **cowWhySo/reddit_top_comments** 5. **Jackrong/Natural-Reasoning-gpt-oss-120B-S1** 6. **ozertuu/eksiSozlukScrapy**
提供机构:
Ba2han
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作