tahrirchi/uz-books

Name: tahrirchi/uz-books
Creator: tahrirchi
Published: 2023-10-28 19:11:13
License: 暂无描述

Hugging Face2023-10-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tahrirchi/uz-books

下载链接

链接失效反馈

官方服务：

资源简介：

UzBooks数据集是一个包含近40000本乌兹别克语书籍的清理后的书籍语料库，分为original和lat两个分支，分别代表原始OCR文本和完全拉丁化的版本。该数据集的发布旨在促进低资源语言的研究，特别是乌兹别克语。数据集通过光学字符识别技术从各种互联网资源中爬取并预处理，拉丁化版本通过高度策划的脚本转换原始数据集，以强调该领域的研究和开发。

The UzBooks dataset is a cleaned corpus of Uzbek language books, consisting of nearly 40,000 books divided into two branches: original and lat, representing the OCRed (Latin and Cyrillic) and fully Latin versions of the texts, respectively. This dataset supports tasks such as text generation and fill-mask, suitable for monolingual language model training. The creation of the dataset involves crawling books from various internet sources and preprocessing using the Tesseract OCR Engine.

提供机构：

tahrirchi

原始信息汇总

数据集描述

数据集概要

UzBooks数据集是一个经过清洗的书籍语料库，包含近40000本乌兹别克语书籍，分为两个分支：“original”和“lat”，分别代表OCRed（拉丁和西里尔）和完全拉丁版本的文本。

支持的任务和排行榜

任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模

语言

乌兹别克语

数据集结构

数据实例

一个train示例如下： json { "text": "Hamsa Alisher Navoiy ..." }

数据字段

所有拆分中的数据字段相同：

text: 包含书籍文本的string特征。

数据拆分

名称	数量
original	39712
lat	39712

数据集创建

书籍从各种互联网来源爬取，并使用Tesseract OCR Engine进行光学字符识别技术预处理。拉丁版本是通过使用高度精选的脚本转换原始数据集创建的，以强调该领域的研究和开发。

引用

请使用以下格式引用此数据集： plaintext @online{Mamasaidov2023UzBooks, author = {Mukhammadsaid Mamasaidov and Abror Shopulatov}, title = {UzBooks dataset}, year = {2023}, url = {https://huggingface.co/datasets/tahrirchi/uz-books}, note = {Accessed: 2023-10-28}, urldate = {2023-10-28} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集