kurumikz/kaz-news-corpus
收藏Hugging Face2026-04-05 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/kurumikz/kaz-news-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- kk
license: odc-by
task_categories:
- text-classification
- text-generation
pretty_name: KAZ-NEWS-CORPUS
size_categories:
- 10K<n<100K
source_datasets:
- original
tags:
- kazakh
- news
- nlp
---
# kaz-news-corpus
Қазақ тіліндегі жаңалықтар корпусы — egemen.kz, baq.kz және azattyq.org сайттарынан жиналған.
## Датасет туралы
| Параметр | Мән |
|---|---|
| Мақала саны | **11,814** |
| Жалпы көлемі | **53.86 MB** |
| Жалпы сөз саны | **3,405,903** |
| Орташа мақала ұзындығы | **2,274 символ / 288 сөз** |
| Медиана ұзындығы | **1,503 символ** |
| Ең ұзын мақала | 81,103 символ |
| Ең қысқа мақала | 86 символ |
| Бос тақырып (title) | 3 (0.025%) |
## Деректер көздері
| Сайт | Мақала | Орташа ұзындық | Үлесі |
|---|---|---|---|
| Baq.kz | 4,993 | 1,620 символ | 42.3% |
| Azattyq (RFE/RL) | 3,839 | 3,134 символ | 32.5% |
| Egemen Qazaqstan | 2,982 | 2,262 символ | 25.2% |
## Мақала ұзындықтарының бөлінуі
```
100–500 символ : ████ 986 (8.3%)
500–1000 символ : █████████ 2305 (19.5%)
1000–3000 символ : ███████████████████████ 6480 (54.9%)
3000–10000 символ : ███████ 1739 (14.7%)
10000+ символ : █ 301 (2.5%)
```
## Тазалау туралы
Бастапқы датасет `kazakh_media_dataset.jsonl` (11,824 мақала) автоматты түрде тазаланды:
- Сайт навигациясы, фото астары, санат белгілері жойылды
- Байлайндар жойылды (`BAQ.KZ тілшісі`, т.б.)
- Қайталанатын жолдар алынды
- `title` өрісі бос болған жағдайда мақаланың бірінші сөйлемінен автоматты түрде толтырылды
- 10 мақала тазалаудан кейін 80 символдан аз болды — алынып тасталды
## Деректер форматы
**JSONL** форматы — әр жол бір мақала:
```json
{
"article_id": 1,
"source_name": "Egemen Qazaqstan",
"url": "https://egemen.kz/article/...",
"title": "Мақала тақырыбы",
"content": "Мақала мәтіні осында..."
}
```
| Өріс | Түрі | Сипаттамасы |
|---|---|---|
| `article_id` | int | Мақаланың реттік нөмірі |
| `source_name` | string | Деректер көзінің атауы |
| `url` | string | Бастапқы сілтеме |
| `title` | string | Тақырып |
| `content` | string | Мақала мәтіні |
## Пайдалану
```python
import json
with open("kaz_news_corpus_clean.jsonl", "r", encoding="utf-8") as f:
for line in f:
article = json.loads(line)
print(article["source_name"], article["title"])
```
```python
import pandas as pd
df = pd.read_json("kaz_news_corpus_clean.jsonl", lines=True)
print(df.groupby("source_name")["content"].count())
```
## Лицензия
Датасет **[Open Data Commons Attribution License (ODC-BY) 1.0](https://opendatacommons.org/licenses/by/1-0/)** лицензиясы бойынша таратылады.
Авторлықты көрсеткен жағдайда датасетті еркін пайдалануға, көшіруге және таратуға болады:
```
kurumikz. kaz-news-corpus: Kazakh news corpus. 2026.
https://huggingface.co/datasets/kurumikz/kaz-news-corpus
```
Мәтіндердің авторлық құқығы бастапқы деректер көздеріне тиесілі (egemen.kz, baq.kz, azattyq.org). Датасет тек зерттеу мақсатында жиналған.
---
*Author: [@kurumikz](https://huggingface.co/kurumikz) · 2026*
提供机构:
kurumikz



