five

hoanghai2110/vi-pretrain-clean

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/hoanghai2110/vi-pretrain-clean
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - vi license: cc0-1.0 task_categories: - text-generation task_ids: - language-modeling tags: - vietnamese - pretraining - mamba - ssm - nlp pretty_name: Vietnamese Pretraining Dataset (Wiki + OPUS) size_categories: - 100K<n<1M --- # Vietnamese Pretraining Dataset Bộ dữ liệu tiếng Việt chất lượng cao để pretrain mô hình ngôn ngữ từ đầu (from scratch). Mục tiêu: **"ít mà vàng"** — ít dữ liệu nhưng cực sạch. ## Thống kê | Chỉ số | Giá trị | |--------|---------| | Tổng docs | 511,198 | | Raw text | ~0.69 GB | | Ước tính tokens | ~230M tokens | | Nguồn | 4 nguồn | ## Nguồn dữ liệu | Nguồn | Docs | Loại nội dung | |-------|------|---------------| | Wikipedia VI | 378,895 | Bách khoa toàn thư | | OPUS OpenSubtitles | 84,021 | Hội thoại, phụ đề phim | | OPUS CCAligned | 39,660 | Văn bản web song ngữ | | OPUS WikiMatrix | 8,530 | Câu Wikipedia song ngữ | | CC-100 VI | 92 | Web crawl | ## Bộ lọc chất lượng (8 tiêu chí) 1. **Tỉ lệ ký tự tiếng Việt ≥ 70%** — loại văn bản không phải tiếng Việt 2. **Tối thiểu 3 câu** — loại đoạn quá ngắn 3. **Độ dài ≥ 200 ký tự** — loại stub 4. **Dedup MD5** — loại bản sao y hệt 5. **Phát hiện lặp lại** — loại văn bản có n-gram lặp quá nhiều 6. **Xóa URL và thẻ HTML** 7. **Blacklist từ khóa** — loại spam, porn, quảng cáo 8. **Line diversity** — loại block copy-paste một dòng ## Định dạng JSONL — mỗi dòng là một document: ```json {"text": "Hà Nội là thủ đô của Việt Nam...", "source": "wikipedia_vi", "id": "wiki_12345"} ``` ## Cách dùng ```python import json with open("vi_pretrain_part_01.jsonl") as f: for line in f: doc = json.loads(line) print(doc["text"][:100]) break ``` ## Dùng với 🤗 Datasets ```python from datasets import load_dataset ds = load_dataset("hoanghai2110/vi-pretrain-clean", split="train") print(ds[0]) ``` ## Mục đích Được xây dựng để huấn luyện mô hình **Mamba (SSM)** tiếng Việt từ đầu với quy mô ~130M–1B tham số.
提供机构:
hoanghai2110
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作