five

OCRTurk

收藏
arXiv2026-02-04 更新2026-02-05 收录
下载链接:
https://github.com/metunlp/ocrturk
下载链接
链接失效反馈
官方服务:
资源简介:
OCRTurk是由中东技术大学和Roketsan公司联合创建的首个土耳其语OCR基准数据集,旨在解决土耳其语文档解析缺乏标准化评估的问题。该数据集包含180份真实文档,涵盖学术论文、非学术文档、学位论文和幻灯片四种类型,并按照难度分为简单、中等和困难三个级别。数据来源于arXiv、DergiPark、YÖK TEZ等多个公开平台,包含文本、表格、数学公式和图形等多种元素。数据集通过手动标注和严格的质量控制流程构建,采用Markdown格式标准化存储。该数据集主要用于评估OCR模型在土耳其语文档解析中的性能,特别是在多元素识别和低资源语言处理方面的能力。

OCRTurk is the first Turkish-language OCR benchmark dataset jointly created by Middle East Technical University and Roketsan, aiming to address the lack of standardized evaluation for Turkish document parsing. This dataset comprises 180 real-world documents covering four categories: academic papers, non-academic documents, theses, and slide decks, and is divided into three difficulty levels: easy, medium, and hard. The data is sourced from multiple public platforms including arXiv, DergiPark, YÖK TEZ and others, and contains diverse elements such as text, tables, mathematical formulas and graphics. The dataset is constructed through manual annotation and a rigorous quality control workflow, and is stored in a standardized Markdown format. This dataset is primarily used to evaluate the performance of OCR models in Turkish document parsing, especially their capabilities in multi-element recognition and low-resource language processing.
提供机构:
中东技术大学·计算机工程系; 都灵理工大学; Roketsan公司·人工智能技术部门
创建时间:
2026-02-04
原始信息汇总

OCRTurk Benchmark 数据集概述

数据集基本信息

  • 数据集名称: OCRTurk Benchmark
  • 主要用途: 一个用于比较OCR模型输出与土耳其语真实世界数据的综合评估框架。
  • 核心功能: 提供从文档中提取的文本、公式、表格和图像的详细评估指标。

评估指标

文本指标

  • 归一化编辑距离: Levenshtein距离按长度归一化(值越低越好,0表示完美匹配)。
  • 土耳其语字符相似度: 针对土耳其语变音符号的专门指标(值越高越好,1表示完美)。

公式指标

  • BLEU-4: 用于LaTeX公式的标准BLEU分数(值越高越好,1表示完美)。
  • 字符Dice指标: 基于字符重叠的类F1指标(值越高越好,1表示完美)。
  • 公式归一化编辑距离: 针对LaTeX字符串的编辑距离(值越低越好)。

表格指标

  • 表格归一化编辑距离: 对CSV序列化表格的编辑距离(值越低越好)。
  • 类TEDS指标: 基于树编辑距离的表格结构相似度(值越高越好,1表示完美)。

图像指标

  • 均方误差: 均方误差(值越低越好)。
  • DreamSim: 感知相似度指标(值越低越好)。

数据结构与使用

预期输入结构

ground_truth/ ├── data_1/ │ ├── document.md │ └── figures/ │ ├── figure_1.png │ └── figure_2.png model_outputs/ ├── data_1/ │ ├── result.md (或 document.md) │ └── images/ (或 fig/, imgs/) │ ├── figure_1.png │ └── figure_2.png

输出结构

results/ ├── per_doc_metrics.csv # 每个文档的指标 ├── per_image_metrics.csv # 每个图像对的指标 └── summary_metrics.csv # 汇总统计信息

输出文件详情

  • per_doc_metrics.csv: 包含每个文档的指标,如文本、公式、表格、图像指标以及提取元素的数量。
  • per_image_metrics.csv: 包含每个图像对的指标,如均方误差、DreamSim以及源文件路径。
  • summary_metrics.csv: 包含所有文档和图像的汇总统计数据。

快速开始

基本使用

bash python eval.py <ground_truth_path> <model_output_path> [results_path]

包含图像指标

bash python eval.py <ground_truth_path> <model_output_path> [results_path] --images

示例

bash python eval.py ./data/ground_truth ./data/model_outputs ./results --images

引用信息

如需在研究中引用此工具,请使用以下BibTeX条目: bibtex @misc{yılmaz2026ocrturkcomprehensiveocrbenchmark, title={OCRTurk: A Comprehensive OCR Benchmark for Turkish}, author={Deniz Yılmaz and Evren Ayberk Munis and Çağrı Toraman and Süha Kağan Köse and Burak Aktaş and Mehmet Can Baytekin and Bilge Kaan Görür}, year={2026}, eprint={2602.03693}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.03693}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在光学字符识别领域,针对土耳其语等低资源语言的标准化评测基准尚显匮乏。OCRTurk基准的构建过程体现了对真实场景文档多样性的深入考量,其数据来源于公开的学术平台,涵盖学术论文、非学术文档、学位论文及演示文稿四大类别。通过人工标注与双重验证机制,研究团队将原始PDF文档转化为统一的Markdown格式,其中文本内容逐字转录,表格转换为HTML,数学表达式则采用LaTeX编码。为确保标注质量,两位标注者独立完成子集转换后,均进行了字符级的手动核对与修正,并利用大型语言模型辅助格式化以提升效率,最终仅通过一致性检查的样本被纳入基准,形成了包含180个文档页面的高质量数据集。
特点
OCRTurk基准的核心特点在于其多层次的结构化设计以及对土耳其语文档解析挑战的针对性覆盖。该数据集依据文档结构的复杂程度,将样本划分为简单、中等与困难三个难度等级,其中困难等级包含了多行公式、复杂表格及带子图的图像等元素。数据构成上,它均衡地包含了279个结构项,如数学公式、表格和图形,并特别强调了土耳其语特有的字符处理。与以往仅关注原始文本的土耳其语基准不同,OCRTurk首次系统性地集成了对表格、公式和图形的细粒度评估,从而能够全面反映模型在真实、多样化的土耳其语文档环境下的解析能力与鲁棒性。
使用方法
该数据集主要用于系统评估光学字符识别与文档解析模型在土耳其语环境下的性能。研究人员可利用其提供的180个标注文档及配套评估脚本,对模型在原始文本提取、表格结构识别、数学公式重建以及图形内容抽取等多个任务上进行量化评测。评估体系采用了归一化编辑距离、土耳其字符敏感度、树编辑距离相似度以及BLEU分数等一系列指标,分别从字符准确性、结构保真度和语义完整性等维度进行衡量。通过分析模型在不同文档类别和难度级别上的表现差异,该基准能够有效指导模型优化,并为低资源语言文档理解技术的实际应用提供可靠的性能参照。
背景与挑战
背景概述
光学字符识别(OCR)技术作为文档数字化与智能信息处理的核心环节,其性能评估依赖于高质量、多样化的基准数据集。然而,现有基准大多聚焦于英语等高资源语言,针对土耳其语等低资源语言的标准化评测体系长期缺失。为填补这一空白,中东技术大学、Roketsan公司等机构的研究团队于2026年推出了OCRTurk数据集,这是首个面向土耳其语文档解析的综合性基准。该数据集精心选取了180份真实场景中的土耳其语文档,涵盖学术论文、学位论文、演示文稿与非学术文章等多种类型,并依据结构复杂度划分为易、中、难三个等级。OCRTurk不仅评估原始文本识别能力,更系统性地引入了对表格、数学公式及图形等版面元素的解析任务,旨在全面衡量模型在复杂文档环境下的实际性能,为土耳其语OCR技术的发展提供了至关重要的评估工具与研究方向。
当前挑战
OCRTurk数据集致力于解决土耳其语文档解析这一特定领域问题,其核心挑战在于应对土耳其语独特的形态学特征,如元音和谐与丰富的词缀变化,这些特性使得字符识别与上下文理解远比英语复杂。同时,文档中混合的版面元素(如多行公式、嵌套表格)进一步增加了结构解析的难度。在数据集构建过程中,研究团队面临了多重挑战:首先,从公开资源中收集具有代表性且多样化的真实土耳其语文档耗时耗力;其次,为确保标注质量,需将原始PDF文档人工转换为标准化的Markdown格式,并对表格、公式等元素进行精确的结构化标注与字符级校验,这一过程极为繁琐且容易出错;此外,数据集中幻灯片类文档因其非结构化布局与非常规排版,成为模型性能评估中的显著难点,凸显了现实场景中文档格式的复杂性与不可预测性。
常用场景
经典使用场景
在光学字符识别领域,针对低资源语言的文档解析评估长期面临标准化基准缺失的挑战。OCRTurk作为首个土耳其语文档解析基准,其经典使用场景在于为研究者提供多维度评估框架,涵盖学术论文、学位论文、演示文稿与非学术文档等四种真实文档类型。该数据集通过三个难度层级的结构化设计,支持对原始文本、表格、数学公式及图形元素的系统性性能测试,成为衡量OCR模型在复杂土耳其语形态与多样化版面布局下鲁棒性的核心工具。
衍生相关工作
围绕OCRTurk的评估范式,衍生出若干具有影响力的研究方向。在跨语言基准构建方面,其多元素评估框架为阿拉伯语KITAB等低资源语言基准提供了设计参考。在模型优化领域,基于该数据集揭示的土耳其字符混淆问题,催生了针对字形变体的后处理算法研究。此外,其公开的评估脚本与标准化流程,促进了OmniDocBench等国际基准的本地化适配工作,形成了以真实文档多样性为核心的评估方法演进脉络。
数据集最近研究
最新研究方向
在光学字符识别领域,针对低资源语言的文档解析评估长期面临标准化基准缺失的挑战。OCRTurk作为首个面向土耳其语的综合性文档解析基准,其最新研究聚焦于多元素结构识别与真实场景覆盖的前沿方向。该基准通过整合学术论文、学位论文、演示文稿与非学术文档等多元化来源,构建了包含文本、表格、公式与图像的四类结构元素评估体系,并依据布局复杂度划分三个难度等级。研究热点紧密关联多语言OCR模型在低资源环境下的泛化能力验证,特别是在土耳其语特有的形态复杂性与灵活语序背景下,模型对特殊字符的敏感性及跨文档类型的性能差异成为核心分析维度。此项工作不仅填补了土耳其语文档解析评估的空白,更为低资源语言OCR系统的可靠性测试提供了可复现的标准化框架,对推动多语言文档数字化技术的公平发展与实际应用具有显著的学术与实践意义。
相关研究论文
  • 1
    OCRTurk: A Comprehensive OCR Benchmark for Turkish中东技术大学·计算机工程系; 都灵理工大学; Roketsan公司·人工智能技术部门 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作