five

tahrirchi/uz-crawl

收藏
Hugging Face2024-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tahrirchi/uz-crawl
下载链接
链接失效反馈
官方服务:
资源简介:
UzCrawl数据集是一个用于乌兹别克语研究的网络和Telegram爬取语料库,包含来自近120万个独特来源的材料。数据集分为两个部分:新闻和Telegram博客,分别包含1250018和368017个样本。新闻部分使用Scrapy框架从57个不同网站爬取,而Telegram博客部分则由128个高质量Telegram频道的文本手动筛选而成。数据集旨在促进低资源语言的研究,特别是乌兹别克语。
提供机构:
tahrirchi
原始信息汇总

数据集卡片 for UzCrawl

数据集描述

数据集摘要

UzCrawl 数据集是一个包含乌兹别克语材料的网络和 Telegram 爬虫语料库,来自近 120 万个独特来源。

支持的任务和排行榜

  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务 ID:
    • 语言建模
    • 掩码语言建模

语言

  • 语言: 乌兹别克语 (uz)

数据集结构

数据实例

新闻

  • 大小:
    • 下载的数据文件大小: 3.41 GB
    • 生成的数据集大小: 1.68 GB
    • 总磁盘使用量: 5.1 GB

示例: json { "text": "O‘zbekiston Respublikasi Vazirlar Mahkamasining 2019 yil 24 iyuldagi 620-son qarori bilan tasdiqlangan «Xorijiy davlatlarda talim olganlik to‘g‘risidagi hujjatlarni tan olish tartibi to‘g‘risida»gi Nizom ijrosini taminlash maqsadida Talim sifatini nazorat qilish davlat inspeksiyasida (Toshkent shahar, Chilonzor tumani, Nurxon ko‘chasi, 21-uy) 2019 yil 9 –14 sentabr kunlari sohalar bo‘yicha sinov testlari bo‘lib o‘tishi rejalashtirilgan. Talim sifatini nazorat qilish davlat inspeksiyasi matbuot xizmati xabarigaxa0ko‘ra, «Huquqshunoslik», «Sog‘liqni saqlash va ijtimoiy taminot», «Iqtisodiyot», «Qishloq xo‘jaligi, muhandislik, ishlov berish va qurilish» hamda «O‘qituvchilar tayyorlash va pedagogik fanlar» sohalari bo‘yicha sinov testlari o‘tkaziladigan sanasi va sinov testida ishtirok etuvchilar ro‘yxati jadvalga muvofiq belgilanadi. Talim sifatini nazorat qilish davlat inspeksiyasi ogohlantirishicha, xorijiy davlatlarda talim olganlik to‘g‘risidagi hujjatlarni tan olish uchun belgilangan sinov testlariga o‘z vaqtida kelmagan, sinov testida ishtirok etuvchilar ro‘yxatida mavjud bo‘lmagan talabgorlarga sinovlarga kirishga ruxsat etilmaydi.", "timestamp": "2019-06-09", "source": "https://kun.uz/uz/news/2019/09/06/xorijda-talim-olganlik-togrisidagi-hujjatlarni-tan-olish-uchun-testlar-otkaziladigan-kunlar-malum-boldi" }

数据字段

所有分割的数据字段相同:

  • text: 包含文本的字符串特征。
  • timestamp: 包含材料时间戳的字符串特征。
  • source: 包含材料 URL 的字符串特征。

数据分割

分割名称 示例数量
news 1250018
telegram_blogs 368017

数据集创建

新闻部分是从 57 个不同网站使用 Scrapy 框架爬取的。Telegram 博客部分由从 128 个高质量 Telegram 频道手动筛选的文本组成。

引用

请使用以下格式引用此数据集:

@online{Mamasaidov2023UzCrawl, author = {Mukhammadsaid Mamasaidov and Abror Shopulatov}, title = {UzCrawl dataset}, year = {2023}, url = {https://huggingface.co/datasets/tahrirchi/uz-crawl}, note = {Accessed: 2023-10-28}, % change this date urldate = {2023-10-28} % change this date }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作