hoanghai2110/vi-pretrain-clean

Name: hoanghai2110/vi-pretrain-clean
Creator: hoanghai2110
Published: 2026-04-10 02:29:59
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/hoanghai2110/vi-pretrain-clean

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - vi license: cc0-1.0 task_categories: - text-generation task_ids: - language-modeling tags: - vietnamese - pretraining - mamba - ssm - nlp pretty_name: Vietnamese Pretraining Dataset (Wiki + OPUS) size_categories: - 100K<n<1M --- # Vietnamese Pretraining Dataset Bộ dữ liệu tiếng Việt chất lượng cao để pretrain mô hình ngôn ngữ từ đầu (from scratch). Mục tiêu: **"ít mà vàng"** — ít dữ liệu nhưng cực sạch. ## Thống kê | Chỉ số | Giá trị | |--------|---------| | Tổng docs | 511,198 | | Raw text | ~0.69 GB | | Ước tính tokens | ~230M tokens | | Nguồn | 4 nguồn | ## Nguồn dữ liệu | Nguồn | Docs | Loại nội dung | |-------|------|---------------| | Wikipedia VI | 378,895 | Bách khoa toàn thư | | OPUS OpenSubtitles | 84,021 | Hội thoại, phụ đề phim | | OPUS CCAligned | 39,660 | Văn bản web song ngữ | | OPUS WikiMatrix | 8,530 | Câu Wikipedia song ngữ | | CC-100 VI | 92 | Web crawl | ## Bộ lọc chất lượng (8 tiêu chí) 1. **Tỉ lệ ký tự tiếng Việt ≥ 70%** — loại văn bản không phải tiếng Việt 2. **Tối thiểu 3 câu** — loại đoạn quá ngắn 3. **Độ dài ≥ 200 ký tự** — loại stub 4. **Dedup MD5** — loại bản sao y hệt 5. **Phát hiện lặp lại** — loại văn bản có n-gram lặp quá nhiều 6. **Xóa URL và thẻ HTML** 7. **Blacklist từ khóa** — loại spam, porn, quảng cáo 8. **Line diversity** — loại block copy-paste một dòng ## Định dạng JSONL — mỗi dòng là một document: ```json {"text": "Hà Nội là thủ đô của Việt Nam...", "source": "wikipedia_vi", "id": "wiki_12345"} ``` ## Cách dùng ```python import json with open("vi_pretrain_part_01.jsonl") as f: for line in f: doc = json.loads(line) print(doc["text"][:100]) break ``` ## Dùng với 🤗 Datasets ```python from datasets import load_dataset ds = load_dataset("hoanghai2110/vi-pretrain-clean", split="train") print(ds[0]) ``` ## Mục đích Được xây dựng để huấn luyện mô hình **Mamba (SSM)** tiếng Việt từ đầu với quy mô ~130M–1B tham số.

提供机构：

hoanghai2110

5,000+

优质数据集

54 个

任务类型

进入经典数据集