odia-ocr-synth

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/Pritosh/odia-ocr-synth

下载链接

链接失效反馈

官方服务：

资源简介：

Odia OCR合成训练数据集是一个包含100,000个合成图像-文本对的数据集，专门用于训练Odia（ଓଡ଼ିଆ）文字的OCR模型。每个样本由一个包含渲染Odia文本的PNG图像和对应的Unicode文本文件（.gt.txt）组成。数据集生成使用了9种不同的字体家族和24种字体变体，文本来源包括Odia维基百科、Purnachandra词典、NIOS教科书、Wikisource文献以及工程/科学术语表。为了增强数据的真实性，应用了多种增强技术，包括高斯噪声、模糊、旋转、透视倾斜、JPEG压缩、墨水渗透和亮度/对比度变化。数据集按不同采样模式组织，包括单词（20%）、短语（20%）、句子（30%）、段落（15%）和混合双语对（15%）。数据集以20个tar.gz分片形式存储，每个分片包含5,000个图像-文本对。该数据集兼容Tesseract、Kraken、EasyOCR、PaddleOCR等OCR框架以及深度学习框架。数据集生成工具为开源的odia-ocr-synth，许可证为MIT（代码）和SIL OFL 1.1 / Apache 2.0（字体）。

创建时间：

2026-03-26

原始信息汇总

Odia OCR Synthetic Training Data 数据集概述

数据集基本信息

数据集名称：Odia OCR Synthetic Training Data
语言：奥里亚语 (Odia, ଓଡ଼ିଆ)
许可协议：MIT (代码) | 字体许可：SIL OFL 1.1 / Apache 2.0
任务类别：图像到文本
标签：ocr, odia, oriya, synthetic, text-recognition
数据规模：10K<n<100K
数据量：100,000 个合成图像-文本对

数据集描述

该数据集包含 100,000 个合成图像-文本对，用于训练奥里亚语 (Odia) 脚本的光学字符识别模型。

样本构成

每个样本包含：

一个包含渲染奥里亚文本的 PNG 图像
一个包含对应 Unicode 文本的真实标签 .gt.txt 文件

生成详情

字体

字体家族：9 种 (Noto Sans/Serif Oriya, Anek Odia, Baloo Bhaina 2, Lohit Odia, Odia OT Jagannatha, Sakal Bharati, Nirmala UI)
字体变体：24 种 (不同字重：从 Thin 到 ExtraBold)

文本来源

奥里亚语维基百科 (91M 字符)
Purnachandra 词典 (146K 定义)
NIOS 教科书
Wikisource 文献
工程/科学术语表

数据增强

应用了高斯噪声、模糊、旋转、透视扭曲、JPEG 压缩、墨水洇染、亮度/对比度变化。

难度级别

中等 (平衡增强以实现真实训练)

采样模式

模式	比例	描述
单词	20%	单个词典单词
短语	20%	2-5 个连续单词
句子	30%	完整句子
段落	15%	多句子块
混合	15%	奥里亚语-英语双语对

数据集结构

完整结构

images/ # 100,000 个 PNG 文件 (0000000.png 到 0099999.png) ground_truth/ # 100,000 个文本文件 (0000000.gt.txt 到 0099999.gt.txt) metadata.csv # 完整的生成元数据

分片结构

数据存储在 data/ 目录下的 20 个 tar.gz 分片中，每个分片包含 5,000 个图像-文本对：

data/ shard_000000_004999.tar.gz # 样本 0-4999 shard_005000_009999.tar.gz # 样本 5000-9999 ... shard_095000_099999.tar.gz # 样本 95000-99999 metadata.csv # 完整的生成元数据

每个分片解压后包含：

images/0000000.png ... 0004999.png ground_truth/0000000.gt.txt ... 0004999.gt.txt

元数据文件 (metadata.csv) 列

image_path, gt_path, text, sample_mode, font_name, font_size, bg_color, text_color, line_spacing, augmentations, image_width, image_height, num_chars, num_words

使用方式

兼容 Tesseract, Kraken, EasyOCR, PaddleOCR 以及深度学习框架。

生成工具

使用开源工具 odia-ocr-synth 生成。

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，合成数据的生成技术为低资源语言提供了有效的训练资源。本数据集通过系统化的合成流程构建，首先从奥里亚语维基百科、词典及教科书等多样文本源中提取语料，涵盖单词、短语、句子及段落等多种语言单位。随后利用九种字体家族及其多种变体进行文本渲染，生成初始图像。为进一步提升数据真实性，应用了高斯噪声、模糊、旋转、透视扭曲及亮度对比度调整等多种图像增强技术，最终形成了十万对图像-文本样本，每对样本均包含PNG格式图像及对应的Unicode文本文件。

特点

该数据集在奥里亚语OCR任务中展现出鲜明的技术特色。其核心优势在于数据构成的多样性与真实性，不仅融合了单字、短语、完整句子及段落等多种文本结构，还特别包含了奥里亚语与英语的双语混合样本。图像生成过程采用了丰富的字体样式与尺寸变化，并结合了模拟真实扫描缺陷的多种图像增强手段，有效提升了模型对复杂场景的适应能力。数据集以分片压缩格式存储，便于分布式处理与高效加载，并附有详尽的元数据文件，完整记录了每张图像的生成参数与文本信息，为模型训练与评估提供了坚实的结构化基础。

使用方法

为便于研究与应用，数据集设计提供了灵活的使用途径。用户可通过Hugging Face Hub直接下载全部或部分数据分片，每个分片解压后均包含独立的图像与文本标注目录。数据集兼容主流OCR框架如Tesseract、Kraken及PaddleOCR，并可无缝集成至PyTorch等深度学习平台，通过定制Dataset类实现数据流的批量加载与预处理。对于特定训练需求，用户可依据附带的元数据信息筛选不同难度或风格的样本子集，从而针对性地优化模型在不同文本形态与图像质量下的识别性能。

背景与挑战

背景概述

在光学字符识别技术蓬勃发展的背景下，针对低资源语言如奥里亚语（Odia）的文本识别研究长期面临数据匮乏的困境。奥里亚语作为印度官方语言之一，其独特的书写系统对OCR模型的训练提出了特殊要求。为应对这一挑战，研究人员Pritosh Kumar等人于近年创建了Odia OCR Synthetic Training Data数据集，旨在通过合成方法生成大规模、高质量的图像-文本对，以支持奥里亚语OCR模型的开发与优化。该数据集整合了来自奥里亚语维基百科、普尔纳钱德拉词典、教科书及文学作品等多源文本，并应用了多种字体与视觉增强技术，显著提升了合成数据的真实性与多样性，为推进奥里亚语数字文档处理及相关自然语言处理任务提供了关键资源。

当前挑战

该数据集致力于解决奥里亚语光学字符识别领域因真实标注数据稀缺而导致的模型性能瓶颈问题。其核心挑战在于如何生成既具语言代表性又贴近真实场景的合成数据。在构建过程中，研究人员需克服多方面的困难：首先，奥里亚语字符的复杂连字和独特字形对字体渲染的保真度提出了高要求，需精心筛选和组合多种字体家族及其变体以确保字符覆盖的完整性。其次，合成图像需模拟现实文档中常见的退化现象，如噪声、模糊、透视畸变和压缩伪影，这要求设计平衡且逼真的数据增强流程。此外，从多源文本中采样并构建涵盖单词、短语、句子及段落的多层次语料，以维持语言结构的自然性与内容的多样性，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在光学字符识别领域，特别是针对低资源语言的文本识别任务中，Odia-ocr-synth数据集为奥里亚语（Odia）的OCR模型训练提供了关键支持。该数据集通过合成10万张图像-文本对，模拟了真实世界中的文本渲染效果，涵盖了单词、短语、句子和段落等多种文本模式，并应用了高斯噪声、模糊、旋转等多样化增强技术，从而构建了一个平衡且逼真的训练环境。研究人员和开发者利用这一数据集，能够高效地训练和优化深度学习模型，提升对奥里亚语印刷体文本的识别准确率，尤其适用于处理字体变异和图像退化等复杂场景。

解决学术问题

该数据集有效解决了奥里亚语作为低资源语言在OCR研究中面临的数据稀缺问题。通过整合奥里亚维基百科、词典、教科书及文学著作等多种文本源，并采用多字体家族和变体进行合成，它提供了大规模、高质量的标注数据，弥补了真实数据收集的困难。这促进了跨语言OCR技术的发展，支持了多语言信息处理系统的构建，为语言学、计算语言学和数字人文领域的学术研究提供了坚实基础，推动了语言技术在全球语言多样性保护中的实际应用。

衍生相关工作

基于Odia-ocr-synth数据集，衍生了一系列经典研究工作，包括改进的端到端OCR模型如CRNN（卷积循环神经网络）和Transformer架构的适配，这些模型在奥里亚语文本识别任务中展现了优异性能。同时，该数据集激发了跨语言迁移学习方法的探索，例如通过预训练在多语言OCR系统中集成奥里亚语支持。开源工具如生成该数据集的代码库也促进了社区协作，推动了类似低资源语言数据集的创建，为全球语言技术研究贡献了重要范例。

以上内容由遇见数据集搜集并总结生成