five

tahrirchi/uz-books

收藏
Hugging Face2023-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tahrirchi/uz-books
下载链接
链接失效反馈
官方服务:
资源简介:
UzBooks数据集是一个包含近40000本乌兹别克语书籍的清理后的书籍语料库,分为original和lat两个分支,分别代表原始OCR文本和完全拉丁化的版本。该数据集的发布旨在促进低资源语言的研究,特别是乌兹别克语。数据集通过光学字符识别技术从各种互联网资源中爬取并预处理,拉丁化版本通过高度策划的脚本转换原始数据集,以强调该领域的研究和开发。

The UzBooks dataset is a cleaned corpus of Uzbek language books, consisting of nearly 40,000 books divided into two branches: original and lat, representing the OCRed (Latin and Cyrillic) and fully Latin versions of the texts, respectively. This dataset supports tasks such as text generation and fill-mask, suitable for monolingual language model training. The creation of the dataset involves crawling books from various internet sources and preprocessing using the Tesseract OCR Engine.
提供机构:
tahrirchi
原始信息汇总

数据集描述

数据集概要

UzBooks数据集是一个经过清洗的书籍语料库,包含近40000本乌兹别克语书籍,分为两个分支:“original”和“lat”,分别代表OCRed(拉丁和西里尔)和完全拉丁版本的文本。

支持的任务和排行榜

  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

语言

  • 乌兹别克语

数据集结构

数据实例

一个train示例如下: json { "text": "Hamsa Alisher Navoiy ..." }

数据字段

所有拆分中的数据字段相同:

  • text: 包含书籍文本的string特征。

数据拆分

名称 数量
original 39712
lat 39712

数据集创建

书籍从各种互联网来源爬取,并使用Tesseract OCR Engine进行光学字符识别技术预处理。拉丁版本是通过使用高度精选的脚本转换原始数据集创建的,以强调该领域的研究和开发。

引用

请使用以下格式引用此数据集: plaintext @online{Mamasaidov2023UzBooks, author = {Mukhammadsaid Mamasaidov and Abror Shopulatov}, title = {UzBooks dataset}, year = {2023}, url = {https://huggingface.co/datasets/tahrirchi/uz-books}, note = {Accessed: 2023-10-28}, urldate = {2023-10-28} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作