odia-ocr-benchmark

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/Iftesha/odia-ocr-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Odia OCR 基准数据集是一个专门用于评估 Odia（Oriya）文本识别OCR模型的精选数据集。该数据集包含手写、印刷、场景文本、报纸、书籍和数字等多种类别的文本，既有短样本也有长文本示例，适用于OCR评估。数据集结构包括：图像（PIL Image）、正确文本转录（ground_truth）、文本类型（category，如手写、印刷等）、文本长度（text_length，分为短、中、长）和来源（source）。数据集涵盖六种主要类别：手写文本、印刷文本、自然场景中的文本、奥里亚报纸剪报、奥里亚书籍页面扫描以及数字内容截图。数据来源包括多个公开数据集和手动收集的内容。该数据集特别包含长文本样本，适用于段落级OCR评估，并采用CC-BY-4.0许可协议。

The Odia OCR benchmark dataset is a curated dataset specifically designed for evaluating Odia (Oriya) text recognition OCR models. This dataset includes text samples of multiple categories, with both short and long text instances, and is applicable for OCR evaluation. The dataset structure contains the following components: image (PIL Image), ground truth of correct text transcription, text category (denoted as `category`, e.g., handwritten, printed, etc.), text length (denoted as `text_length`, categorized into short, medium, and long), and data source (denoted as `source`). The dataset covers six primary categories: handwritten text, printed text, text in natural scenes, Odia newspaper clippings, scanned Odia book pages, and digital content screenshots. The data sources originate from multiple public datasets and manually collected materials. Notably, this dataset features long text samples that are suitable for paragraph-level OCR evaluation, and it is released under the CC-BY-4.0 license.

创建时间：

2026-02-26

原始信息汇总

Odia OCR Benchmark Dataset 概述

数据集基本信息

数据集名称: Odia OCR Benchmark Dataset
托管地址: https://huggingface.co/datasets/Iftesha/odia-ocr-benchmark
主要用途: 用于评估奥里亚语（Odia/Oriya）文本识别OCR模型的基准数据集。
任务类别: 图像到文本（image-to-text）
涉及语言: 奥里亚语（or）
标签: ocr, odia, oriya, indic, benchmark
数据规模: n<1K
许可协议: CC-BY-4.0

数据集描述

这是一个用于评估奥里亚语文本识别OCR模型的精选基准数据集。包含手写体、印刷体、场景文本、报纸、书籍和数字内容等多个类别，同时包含用于OCR评估的短样本和长文本示例。

数据结构

数据集中每个样本包含以下字段：

image: 输入图像（PIL Image格式）
ground_truth: 正确的奥里亚语文本转录
category: 文本类型（handwritten, printed, scene_text, newspaper, books, digital）
text_length: 文本长度（short (1-3单词), medium (4-10单词), long (10+单词)）
source: 原始数据来源或标注为“manual”

数据类别详情

类别	描述
handwritten	手写奥里亚文本（单词/短短语级别）
printed	印刷/打字奥里亚文本
scene_text	自然场景中的文本（招牌、海报等）
newspaper	奥里亚报纸剪报（包含长文本）
books	扫描的奥里亚书籍页面（包含长文本）
digital	奥里亚数字内容的截图

数据来源

OdiaGenAIOCR/odia-ocr-merged （手写体）
darknight054/indic-mozhi-ocr，配置为 oriya （印刷体）
darknight054/indicstr12-crops，配置为 odia （场景文本）
newspaper: 奥里亚报纸扫描件/剪报
books: 奥里亚书籍页面图像
digital: 奥里亚数字内容

使用方式

python from datasets import load_dataset dataset = load_dataset("Iftesha/odia-ocr-benchmark") sample = dataset["train"][0] image = sample["image"] text = sample["ground_truth"]

重要说明

包含用于段落级OCR评估的长文本样本。
source 字段记录了每个样本的原始来源。

搜集汇总

数据集介绍

构建方式

在奥里亚语光学字符识别研究领域，构建一个全面且具有代表性的基准数据集至关重要。该数据集通过系统整合多个来源的奥里亚语文本图像构建而成，涵盖了手写体、印刷体、场景文本、报纸、书籍及数字内容六大类别。其构建过程并非简单汇集，而是从‘OdiaGenAIOCR/odia-ocr-merged’、‘darknight054/indic-mozhi-ocr’以及‘darknight054/indicstr12-crops’等现有数据集中，依据特定配置筛选出奥里亚语样本，并辅以手动收集的报纸扫描件、书籍页面和数字内容截图，最终形成一个结构化的评估基准。

使用方法

研究人员可利用该数据集对奥里亚语OCR模型进行系统化评估与基准测试。使用‘datasets’库加载数据集后，即可便捷访问包含图像、真实文本转录、类别及文本长度等关键字段的样本。通过分析模型在不同类别（如手写体与场景文本）和不同文本长度样本上的识别准确率，能够精准定位模型的优势与薄弱环节。这种评估方式有助于推动针对特定挑战（如复杂背景下的文本提取或长文档识别）的算法改进，促进奥里亚语信息处理技术的进步。

背景与挑战

背景概述

奥里亚语（Odia）作为印度东部奥里萨邦的官方语言，拥有丰富的文字传统和文化遗产。随着数字化进程的加速，奥里亚语文本的自动识别成为自然语言处理与计算机视觉交叉领域的重要研究方向。Odia OCR Benchmark数据集由研究人员Iftesha等人于近期构建，旨在为奥里亚语光学字符识别（OCR）模型提供系统化的评估基准。该数据集整合了手写体、印刷体、场景文本、报纸、书籍及数字内容等多种文本形态，覆盖短样本与长文本示例，致力于解决低资源语言OCR技术中的性能评估难题，对推动印度语系文字的信息化处理具有显著影响力。

当前挑战

奥里亚语OCR领域面临的核心挑战在于其独特的文字结构与低资源特性。奥里亚文字符包含连字和复合字符，形态复杂，导致传统OCR模型在字符分割与识别中准确率受限；同时，数据稀缺使得模型训练难以充分捕捉语言多样性。在数据集构建过程中，挑战主要体现在多源数据的整合与标注：手写文本的笔迹变异大，印刷体因字体差异需统一处理；场景文本受光照、角度及背景干扰，标注一致性难以保证；长文本样本的段落级转录要求高精度，且需协调不同来源的许可协议，确保数据合规性与质量统一。

常用场景

经典使用场景

在光学字符识别领域，特别是针对低资源印度语言的研究中，Odia-OCR-Benchmark数据集为评估模型性能提供了标准化基准。该数据集整合了手写体、印刷体、场景文本、报纸、书籍和数字内容等多种文本形态，覆盖了从短词到长段落的多样化样本，使得研究者能够全面测试OCR系统在奥里亚语文本识别任务上的准确性与鲁棒性。这种多类别、多长度的设计，使得该数据集成为衡量模型在真实世界复杂环境下泛化能力的经典工具。

解决学术问题

该数据集有效解决了奥里亚语这类资源稀缺语言在OCR研究中缺乏高质量、多样化评估基准的学术难题。通过提供涵盖不同来源、格式和复杂度的标注样本，它支持研究者系统探究模型对手写变体、印刷字体、自然场景干扰以及长文本连贯性等关键挑战的应对能力。其建立促进了跨模态文本识别方法的比较与优化，为印度语言信息处理领域的公平评估和算法进步奠定了数据基础，推动了多语言OCR技术的均衡发展。

实际应用

在实际应用中，Odia-OCR-Benchmark数据集支撑了奥里亚语文档数字化、历史档案保护、智能教育辅助以及多语言信息检索等关键场景。例如，利用该数据集训练的模型能够自动识别和转录古老的奥里亚语书籍、报纸档案，助力文化遗产的数字化保存；在公共服务领域，它可应用于自动读取手写表格、街景中的奥里亚语标识，提升行政效率和便民服务。这些应用显著促进了奥里亚语在数字时代的可访问性和使用便利。

数据集最近研究