tahrirchi/uz-crawl
收藏数据集卡片 for UzCrawl
数据集描述
数据集摘要
UzCrawl 数据集是一个包含乌兹别克语材料的网络和 Telegram 爬虫语料库,来自近 120 万个独特来源。
支持的任务和排行榜
- 任务类别:
- 文本生成
- 填充掩码
- 任务 ID:
- 语言建模
- 掩码语言建模
语言
- 语言: 乌兹别克语 (uz)
数据集结构
数据实例
新闻
- 大小:
- 下载的数据文件大小: 3.41 GB
- 生成的数据集大小: 1.68 GB
- 总磁盘使用量: 5.1 GB
示例: json { "text": "O‘zbekiston Respublikasi Vazirlar Mahkamasining 2019 yil 24 iyuldagi 620-son qarori bilan tasdiqlangan «Xorijiy davlatlarda talim olganlik to‘g‘risidagi hujjatlarni tan olish tartibi to‘g‘risida»gi Nizom ijrosini taminlash maqsadida Talim sifatini nazorat qilish davlat inspeksiyasida (Toshkent shahar, Chilonzor tumani, Nurxon ko‘chasi, 21-uy) 2019 yil 9 –14 sentabr kunlari sohalar bo‘yicha sinov testlari bo‘lib o‘tishi rejalashtirilgan. Talim sifatini nazorat qilish davlat inspeksiyasi matbuot xizmati xabarigaxa0ko‘ra, «Huquqshunoslik», «Sog‘liqni saqlash va ijtimoiy taminot», «Iqtisodiyot», «Qishloq xo‘jaligi, muhandislik, ishlov berish va qurilish» hamda «O‘qituvchilar tayyorlash va pedagogik fanlar» sohalari bo‘yicha sinov testlari o‘tkaziladigan sanasi va sinov testida ishtirok etuvchilar ro‘yxati jadvalga muvofiq belgilanadi. Talim sifatini nazorat qilish davlat inspeksiyasi ogohlantirishicha, xorijiy davlatlarda talim olganlik to‘g‘risidagi hujjatlarni tan olish uchun belgilangan sinov testlariga o‘z vaqtida kelmagan, sinov testida ishtirok etuvchilar ro‘yxatida mavjud bo‘lmagan talabgorlarga sinovlarga kirishga ruxsat etilmaydi.", "timestamp": "2019-06-09", "source": "https://kun.uz/uz/news/2019/09/06/xorijda-talim-olganlik-togrisidagi-hujjatlarni-tan-olish-uchun-testlar-otkaziladigan-kunlar-malum-boldi" }
数据字段
所有分割的数据字段相同:
text: 包含文本的字符串特征。timestamp: 包含材料时间戳的字符串特征。source: 包含材料 URL 的字符串特征。
数据分割
| 分割名称 | 示例数量 |
|---|---|
| news | 1250018 |
| telegram_blogs | 368017 |
数据集创建
新闻部分是从 57 个不同网站使用 Scrapy 框架爬取的。Telegram 博客部分由从 128 个高质量 Telegram 频道手动筛选的文本组成。
引用
请使用以下格式引用此数据集:
@online{Mamasaidov2023UzCrawl, author = {Mukhammadsaid Mamasaidov and Abror Shopulatov}, title = {UzCrawl dataset}, year = {2023}, url = {https://huggingface.co/datasets/tahrirchi/uz-crawl}, note = {Accessed: 2023-10-28}, % change this date urldate = {2023-10-28} % change this date }




