Sprakbanken/synthetic_sami_ocr_data

Name: Sprakbanken/synthetic_sami_ocr_data
Creator: Sprakbanken
Published: 2025-01-11 09:06:31
License: 暂无描述

Hugging Face2025-01-11 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/Sprakbanken/synthetic_sami_ocr_data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为北萨米语、南萨米语、吕勒萨米语和伊纳里萨米语设计的合成文本图像数据集，用于OCR模型的训练和验证。数据集包含了合成的文本行图像，这些图像经过扭曲处理以模拟真实文本图像。数据来源于Giellatekno的语料库，并根据语言分布划分为训练集、验证集和测试集。

This dataset contains synthetic text images designed for North, South, Lule, and Inari Sámi OCR model training and validation. The dataset includes distorted synthetic text line images meant to simulate real-world text images. The text sources are from Giellateknos corpus, and the dataset is split into training, validation, and test sets according to language distribution.

提供机构：

Sprakbanken

5,000+

优质数据集

54 个

任务类型

进入经典数据集