five

kurumikz/kaz-news-corpus

收藏
Hugging Face2026-04-05 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/kurumikz/kaz-news-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - kk license: odc-by task_categories: - text-classification - text-generation pretty_name: KAZ-NEWS-CORPUS size_categories: - 10K<n<100K source_datasets: - original tags: - kazakh - news - nlp --- # kaz-news-corpus Қазақ тіліндегі жаңалықтар корпусы — egemen.kz, baq.kz және azattyq.org сайттарынан жиналған. ## Датасет туралы | Параметр | Мән | |---|---| | Мақала саны | **11,814** | | Жалпы көлемі | **53.86 MB** | | Жалпы сөз саны | **3,405,903** | | Орташа мақала ұзындығы | **2,274 символ / 288 сөз** | | Медиана ұзындығы | **1,503 символ** | | Ең ұзын мақала | 81,103 символ | | Ең қысқа мақала | 86 символ | | Бос тақырып (title) | 3 (0.025%) | ## Деректер көздері | Сайт | Мақала | Орташа ұзындық | Үлесі | |---|---|---|---| | Baq.kz | 4,993 | 1,620 символ | 42.3% | | Azattyq (RFE/RL) | 3,839 | 3,134 символ | 32.5% | | Egemen Qazaqstan | 2,982 | 2,262 символ | 25.2% | ## Мақала ұзындықтарының бөлінуі ``` 100–500 символ : ████ 986 (8.3%) 500–1000 символ : █████████ 2305 (19.5%) 1000–3000 символ : ███████████████████████ 6480 (54.9%) 3000–10000 символ : ███████ 1739 (14.7%) 10000+ символ : █ 301 (2.5%) ``` ## Тазалау туралы Бастапқы датасет `kazakh_media_dataset.jsonl` (11,824 мақала) автоматты түрде тазаланды: - Сайт навигациясы, фото астары, санат белгілері жойылды - Байлайндар жойылды (`BAQ.KZ тілшісі`, т.б.) - Қайталанатын жолдар алынды - `title` өрісі бос болған жағдайда мақаланың бірінші сөйлемінен автоматты түрде толтырылды - 10 мақала тазалаудан кейін 80 символдан аз болды — алынып тасталды ## Деректер форматы **JSONL** форматы — әр жол бір мақала: ```json { "article_id": 1, "source_name": "Egemen Qazaqstan", "url": "https://egemen.kz/article/...", "title": "Мақала тақырыбы", "content": "Мақала мәтіні осында..." } ``` | Өріс | Түрі | Сипаттамасы | |---|---|---| | `article_id` | int | Мақаланың реттік нөмірі | | `source_name` | string | Деректер көзінің атауы | | `url` | string | Бастапқы сілтеме | | `title` | string | Тақырып | | `content` | string | Мақала мәтіні | ## Пайдалану ```python import json with open("kaz_news_corpus_clean.jsonl", "r", encoding="utf-8") as f: for line in f: article = json.loads(line) print(article["source_name"], article["title"]) ``` ```python import pandas as pd df = pd.read_json("kaz_news_corpus_clean.jsonl", lines=True) print(df.groupby("source_name")["content"].count()) ``` ## Лицензия Датасет **[Open Data Commons Attribution License (ODC-BY) 1.0](https://opendatacommons.org/licenses/by/1-0/)** лицензиясы бойынша таратылады. Авторлықты көрсеткен жағдайда датасетті еркін пайдалануға, көшіруге және таратуға болады: ``` kurumikz. kaz-news-corpus: Kazakh news corpus. 2026. https://huggingface.co/datasets/kurumikz/kaz-news-corpus ``` Мәтіндердің авторлық құқығы бастапқы деректер көздеріне тиесілі (egemen.kz, baq.kz, azattyq.org). Датасет тек зерттеу мақсатында жиналған. --- *Author: [@kurumikz](https://huggingface.co/kurumikz) · 2026*
提供机构:
kurumikz
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作