hoanghai2110/vi-pretrain-clean
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/hoanghai2110/vi-pretrain-clean
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- vi
license: cc0-1.0
task_categories:
- text-generation
task_ids:
- language-modeling
tags:
- vietnamese
- pretraining
- mamba
- ssm
- nlp
pretty_name: Vietnamese Pretraining Dataset (Wiki + OPUS)
size_categories:
- 100K<n<1M
---
# Vietnamese Pretraining Dataset
Bộ dữ liệu tiếng Việt chất lượng cao để pretrain mô hình ngôn ngữ từ đầu (from scratch).
Mục tiêu: **"ít mà vàng"** — ít dữ liệu nhưng cực sạch.
## Thống kê
| Chỉ số | Giá trị |
|--------|---------|
| Tổng docs | 511,198 |
| Raw text | ~0.69 GB |
| Ước tính tokens | ~230M tokens |
| Nguồn | 4 nguồn |
## Nguồn dữ liệu
| Nguồn | Docs | Loại nội dung |
|-------|------|---------------|
| Wikipedia VI | 378,895 | Bách khoa toàn thư |
| OPUS OpenSubtitles | 84,021 | Hội thoại, phụ đề phim |
| OPUS CCAligned | 39,660 | Văn bản web song ngữ |
| OPUS WikiMatrix | 8,530 | Câu Wikipedia song ngữ |
| CC-100 VI | 92 | Web crawl |
## Bộ lọc chất lượng (8 tiêu chí)
1. **Tỉ lệ ký tự tiếng Việt ≥ 70%** — loại văn bản không phải tiếng Việt
2. **Tối thiểu 3 câu** — loại đoạn quá ngắn
3. **Độ dài ≥ 200 ký tự** — loại stub
4. **Dedup MD5** — loại bản sao y hệt
5. **Phát hiện lặp lại** — loại văn bản có n-gram lặp quá nhiều
6. **Xóa URL và thẻ HTML**
7. **Blacklist từ khóa** — loại spam, porn, quảng cáo
8. **Line diversity** — loại block copy-paste một dòng
## Định dạng
JSONL — mỗi dòng là một document:
```json
{"text": "Hà Nội là thủ đô của Việt Nam...", "source": "wikipedia_vi", "id": "wiki_12345"}
```
## Cách dùng
```python
import json
with open("vi_pretrain_part_01.jsonl") as f:
for line in f:
doc = json.loads(line)
print(doc["text"][:100])
break
```
## Dùng với 🤗 Datasets
```python
from datasets import load_dataset
ds = load_dataset("hoanghai2110/vi-pretrain-clean", split="train")
print(ds[0])
```
## Mục đích
Được xây dựng để huấn luyện mô hình **Mamba (SSM)** tiếng Việt từ đầu với quy mô ~130M–1B tham số.
提供机构:
hoanghai2110



