tahrirchi/uz-books
收藏Hugging Face2023-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tahrirchi/uz-books
下载链接
链接失效反馈官方服务:
资源简介:
UzBooks数据集是一个包含近40000本乌兹别克语书籍的清理后的书籍语料库,分为original和lat两个分支,分别代表原始OCR文本和完全拉丁化的版本。该数据集的发布旨在促进低资源语言的研究,特别是乌兹别克语。数据集通过光学字符识别技术从各种互联网资源中爬取并预处理,拉丁化版本通过高度策划的脚本转换原始数据集,以强调该领域的研究和开发。
The UzBooks dataset is a cleaned corpus of Uzbek language books, consisting of nearly 40,000 books divided into two branches: original and lat, representing the OCRed (Latin and Cyrillic) and fully Latin versions of the texts, respectively. This dataset supports tasks such as text generation and fill-mask, suitable for monolingual language model training. The creation of the dataset involves crawling books from various internet sources and preprocessing using the Tesseract OCR Engine.
提供机构:
tahrirchi
原始信息汇总
数据集描述
数据集概要
UzBooks数据集是一个经过清洗的书籍语料库,包含近40000本乌兹别克语书籍,分为两个分支:“original”和“lat”,分别代表OCRed(拉丁和西里尔)和完全拉丁版本的文本。
支持的任务和排行榜
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
语言
- 乌兹别克语
数据集结构
数据实例
一个train示例如下: json { "text": "Hamsa Alisher Navoiy ..." }
数据字段
所有拆分中的数据字段相同:
text: 包含书籍文本的string特征。
数据拆分
| 名称 | 数量 |
|---|---|
| original | 39712 |
| lat | 39712 |
数据集创建
书籍从各种互联网来源爬取,并使用Tesseract OCR Engine进行光学字符识别技术预处理。拉丁版本是通过使用高度精选的脚本转换原始数据集创建的,以强调该领域的研究和开发。
引用
请使用以下格式引用此数据集: plaintext @online{Mamasaidov2023UzBooks, author = {Mukhammadsaid Mamasaidov and Abror Shopulatov}, title = {UzBooks dataset}, year = {2023}, url = {https://huggingface.co/datasets/tahrirchi/uz-books}, note = {Accessed: 2023-10-28}, urldate = {2023-10-28} }



