HebrewManuscripts

Hugging Face2024-10-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/bsesic/HebrewManuscripts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练和评估光学字符识别（OCR）模型的**希伯来字母**和**停止符号**的图像。数据集旨在支持开发能够从图像中识别单个希伯来字母的机器学习模型，适用于以下任务： - **希伯来语文本的OCR** - **希伯来语学习者的教育工具** - **历史希伯来手稿的数字化** 数据集按目录组织，每个目录对应一个特定的**希伯来字母**或**停止符号**。每个目录包含该字母或符号在不同字体、大小和变体中的多个图像（以`.jpg`格式）。 - **总类别数**：29（28个希伯来字母 + 1个停止符号） - **文件格式**：`.jpg` - **图像大小**：通常为64x64像素该数据集可用于训练机器学习模型，以实现： - **希伯来字母识别**：从扫描文档或文本照片中识别单个希伯来字母。 - **OCR系统**：开发用于数字化印刷或手写希伯来文档的OCR系统。 - **教育工具**：创建用于实时识别字母的希伯来语阅读教学应用程序。

This dataset contains images of **Hebrew letters** and **stop symbols** for training and evaluating optical character recognition (OCR) models. The dataset aims to support the development of machine learning models capable of recognizing individual Hebrew letters from images, applicable to the following tasks: - **OCR for Hebrew text** - **Educational tools for Hebrew language learners** - **Digitization of historical Hebrew manuscripts** The dataset is organized into directories, where each directory corresponds to a specific **Hebrew letter** or **stop symbol**. Each directory contains multiple images in `.jpg` format of the target letter or symbol across different fonts, sizes, and variants. - **Total number of categories**: 29 (28 Hebrew letters + 1 stop symbol) - **File format**: `.jpg` - **Image size**: Typically 64x64 pixels This dataset can be used to train machine learning models to achieve: - **Hebrew letter recognition**: Identify individual Hebrew letters from scanned documents or photos of text. - **OCR systems**: Develop OCR systems for digitizing printed or handwritten Hebrew documents. - **Educational tools**: Create Hebrew language reading teaching applications that recognize letters in real time.

创建时间：

2024-10-18

原始信息汇总

Hebrew Letter Recognition Dataset

数据集描述

该数据集包含希伯来字母和停止符号的图像，用于训练和评估光学字符识别（OCR）模型。数据集旨在支持开发能够从图像中识别单个希伯来字母的机器学习模型，适用于以下任务：

希伯来文本的OCR
希伯来语学习者的教育工具
历史希伯来手稿的数字化

数据集结构

数据集按目录组织，每个目录对应一个特定的希伯来字母或停止符号。每个目录包含多个图像（以.jpg格式），这些图像显示了不同字体、大小和变化的字母或符号。

目录结构：

/dataset/ /א/ (字母 "Aleph" 的图像) /ב/ (字母 "Bet" 的图像) /ג/ (字母 "Gimel" 的图像) ... /stop/ (停止符号 "." 的图像)

总类别数: 29 (28个希伯来字母 + 1个停止符号)
文件格式: .jpg
图像尺寸: 通常为64x64像素

示例目录结构：

dataset/ א/ 1.jpg 2.jpg ... ב/ 1.jpg 2.jpg ... stop/ 1.jpg 2.jpg ...

类别标签：

数据集包括以下类别（字母和停止符号）：
- א, ב, ג, ד, ה, ו, ז, ח, ט, י, ך, כ, ל, ם, מ, ן, נ, ס, ע, ף, פ, ץ, צ, ק, ר, ש, ת, stop (.)

数据集用途

该数据集可用于训练机器学习模型，用于：

希伯来字母识别：构建从扫描文档或文本照片中识别单个希伯来字母的模型。
OCR系统：开发用于数字化印刷或手写希伯来文档的OCR系统。
教育工具：创建用于实时识别字母的希伯来语阅读教学应用程序。

数据预处理

预处理步骤：

调整大小：所有图像应调整为一致的大小（例如，64x64像素），以便输入到CNN模型中。
归一化：将像素值归一化到范围 [0, 1]，方法是将像素值除以255。
数据增强（可选）：应用数据增强技术，如旋转、翻转和缩放，以提高模型的鲁棒性。

数据集统计信息：

总图像数: 307
类别数: 29 (28个字母 + 1个停止符号)
图像格式: .jpg
每类平均图像数: 每类大约10-15张图像。

许可证：

该数据集在MIT许可证下提供。您可以自由使用、修改和分发数据集，只要您包含对原始作者的归属。

引用：

如果您在研究或工作中使用此数据集，请按以下方式引用：

bibtex @misc{hebrew-letter-dataset, title={Hebrew Letter Recognition Dataset}, author={Benjamin Schnabel}, year={2024}, howpublished={url{https://huggingface.co/datasets/your-dataset}}, }

贡献：

如果您希望贡献额外的希伯来字母变体或改进数据集，欢迎提交拉取请求或开启问题。

搜集汇总

数据集介绍

构建方式

HebrewManuscripts数据集通过系统化的图像采集与分类构建而成，专注于希伯来字母及其终止符号的识别。数据集以目录形式组织，每个目录对应一个特定的希伯来字母或终止符号，目录内包含该字符在不同字体、尺寸和变体下的图像。所有图像均以`.jpg`格式存储，图像尺寸通常为64x64像素，涵盖28个希伯来字母及1个终止符号，总计307张图像。

特点

该数据集的核心特点在于其专注于希伯来字母及其终止符号的多样化表现形式，为光学字符识别（OCR）任务提供了丰富的训练素材。数据集包含29个类别，每个类别下包含10至15张图像，涵盖了不同字体和尺寸的变体，能够有效支持机器学习模型在希伯来文本识别、教育工具开发以及历史手稿数字化等领域的应用。

使用方法

使用HebrewManuscripts数据集时，建议首先对图像进行预处理，包括统一尺寸为64x64像素，并将像素值归一化至[0, 1]范围。数据增强技术如旋转、翻转和缩放可进一步提升模型的鲁棒性。通过TensorFlow等深度学习框架，用户可轻松加载数据集并构建多分类模型，适用于希伯来字母识别、OCR系统开发以及希伯来语言教育工具的设计。

背景与挑战

背景概述

HebrewManuscripts数据集由Benjamin Schnabel于2024年创建，旨在支持希伯来字母的光学字符识别（OCR）模型的开发。该数据集包含希伯来字母和停止符号的图像，适用于希伯来文本的OCR、希伯来语言学习工具以及历史希伯来手稿的数字化等任务。数据集的结构按字母和符号分类，每个类别包含不同字体、大小和变体的图像。该数据集的发布为希伯来语文本的自动识别和数字化提供了重要资源，推动了数字人文领域的研究进展。

当前挑战

HebrewManuscripts数据集在构建和应用过程中面临多重挑战。首先，希伯来字母的复杂形态和变体使得模型在识别不同字体和手写体时容易产生误差，增加了OCR系统的开发难度。其次，数据集的规模相对较小，每个类别的图像数量有限，可能导致模型在训练过程中出现过拟合现象。此外，数据预处理步骤如图像大小调整和归一化需要精确控制，以确保输入数据的质量。这些挑战要求研究人员在模型设计和数据增强策略上进行创新，以提高识别的准确性和鲁棒性。

常用场景

经典使用场景

HebrewManuscripts数据集在希伯来字母识别领域具有广泛的应用，特别是在光学字符识别（OCR）模型的训练与评估中。该数据集通过提供不同字体、大小和变体的希伯来字母图像，为研究人员和开发者构建高效的OCR系统提供了坚实的基础。其经典使用场景包括希伯来文本的数字化处理、希伯来语言学习工具的开发以及历史希伯来手稿的数字化保存。

衍生相关工作

HebrewManuscripts数据集衍生了一系列经典研究工作，特别是在希伯来OCR系统和语言学习工具的开发中。基于该数据集的研究成果包括多字体希伯来字母识别模型、历史文献数字化工具以及希伯来语言教育应用。这些工作不仅推动了希伯来文本处理技术的发展，还为其他语言的OCR研究提供了宝贵的参考。

数据集最近研究