five

TurkicOCR-VL

收藏
github2026-05-15 更新2026-05-16 收录
下载链接:
https://github.com/alenisaw/turkicocr-vl
下载链接
链接失效反馈
官方服务:
资源简介:
TurkicOCR-VL是一个用于构建突厥语西里尔文档OCR视觉语言模型的研究与工程项目,包含数据集生成管道、质量门控、清单验证、导出工具、基准评估接口、基线准备和训练准备。它生成合成训练数据集和基准数据集,覆盖哈萨克语、吉尔吉斯语、鞑靼语、巴什基尔语及其与俄语的混合文本,专注于可重复的合成数据和显式质量保证,以改进模型训练和评估。

TurkicOCR-VL is a research and engineering project dedicated to developing visual language models for optical character recognition (OCR) of Turkic Cyrillic documents. It includes a dataset generation pipeline, quality gatekeeping, manifest validation, export utilities, benchmark evaluation interfaces, baseline preparation, and training preparation. It generates synthetic training datasets and benchmark datasets covering Kazakh, Kyrgyz, Tatar, Bashkir, as well as mixed texts combining these languages with Russian, and prioritizes reproducible synthetic data generation and explicit quality assurance to improve model training and evaluation.
创建时间:
2026-05-11
原始信息汇总

数据集概述:TurkicOCR-VL

TurkicOCR-VL 是一个专注于突厥语系西里尔字母文档的 OCR 视觉语言模型(VL)研究与工程项目。项目不仅提供数据集,还包括完整的生成管线、质量检查、评估工具和模型训练准备。

核心目标

  • 为哈萨克语、吉尔吉斯语、鞑靼语和巴什基尔语等突厥语系西里尔字母文档构建 OCR 能力。
  • 解决通用 OCR 系统对特殊西里尔字母(如 ә/а, қ/к, ғ/г, ң/н, ө/о, ұ/у, ү/у, і/и, һ/н)识别不准的问题。
  • 通过可重复的合成数据生成和明确的质量检查(QA)流程,提升模型训练和评估的可靠性。

首个模型:TurkicOCR-VL-Cyrillic

  • 基座模型:PaddleOCR-VL-1.5
  • 目标语言:哈萨克语、吉尔吉斯语、鞑靼语、巴什基尔语
  • 输出格式:纯文本和结构化文档的 Markdown 格式
  • 当前状态:数据集工厂和训练准备阶段,尚未发布最终模型

数据集生成流程

text DocumentSpec -> PDF -> 图像渲染 -> 图像退化 -> manifest.jsonl -> 验证 -> QA报告 -> metadata.parquet -> SFT JSONL -> Hugging Face发布

每条 manifest 记录包含:生成图像、源 PDF、真实文本、语言配置、文档类型、退化配置、模板追踪、图像哈希、文本哈希以及特殊字符计数。

语言覆盖范围

  • 哈萨克语(含哈萨克语/俄语混合)
  • 吉尔吉斯语(含吉尔吉斯语/俄语混合)
  • 鞑靼语
  • 巴什基尔语
  • 少量俄语对照样本(作为控制组)

项目产出

  • 合成训练数据集
  • 基准测试数据集
  • 生成工具
  • 质量检查(QA)工具
  • Manifest 和 Parquet 构建工具
  • SFT JSONL 构建工具
  • 评估脚本
  • 数据泄露检查工具
  • 未来模型检查点

评估指标

评估基于真实的预测 JSONL 文件,关键指标包括:

  • 字符错误率(CER)
  • 词错误率(WER)
  • 特殊字符 CER
  • 混合语言 CER
  • 表格准确率
  • 退化图像性能差距
  • 延迟
  • VRAM 使用

快速开始

Linux/macOS: bash python -m venv .venv source .venv/bin/activate python -m pip install --upgrade pip python -m pip install -e ".[dev]" turkic-ocr-tools start

Windows PowerShell: powershell py -3 -m venv .venv ..venvScriptsActivate.ps1 python -m pip install --upgrade pip python -m pip install -e ".[dev]" turkic-ocr-tools start

项目许可

  • 代码许可:Apache-2.0
  • 数据集许可:CC-BY-4.0

引用信息

引用元数据详见仓库中的 CITATION.cff 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
TurkicOCR-VL数据集的构建遵循一套高度系统化的流水线流程。首先,依据预设的文档规范生成PDF文件,随后将其渲染为图像并施加模拟真实场景的退化效果,以增强模型的鲁棒性。每一张生成图像均被记录为manifest.jsonl格式的清单条目,其中完整保存了图像本身、源PDF路径、真实文本标注、语言类别、文档类型、退化参数、模板溯源信息、图像与文本哈希值以及特殊字符计数。通过验证与质量检测(QA)后,清单数据进一步转换为metadata.parquet文件,并最终构建为适用于模型监督微调(SFT)的JSONL格式,使其能够直接用于训练与评估流程。
特点
该数据集的核心特色在于其专门针对突厥语系西里尔文本文档的深度优化,覆盖哈萨克语、吉尔吉斯语、鞑靼语及巴什基尔语等低资源语言,并特别关注上述语言中易混淆的特殊西里尔字母,如‘ә/а’、‘ң/н’等。数据集不仅包含单语言样本,还纳入了与俄语混合的多语言文档,以模拟真实办公场景中的复杂情况。此外,所有数据均通过可复现的合成流程生成,并伴随严格的归属验证与泄漏检测机制,确保训练数据与基准数据之间无重叠,从而保障评估结果的可信度。
使用方法
用户可通过安装项目提供的Python包并利用丰富的命令行工具快速上手。核心工具为‘turkic-ocr-tools’,其交互式启动器允许通过箭头键选择预设工作流,例如烟雾测试、质量门控500、10万或50万规模训练集生成、基准构建、验证、质量报告导出及SFT数据准备等。在运行前,系统会清晰展示待执行的确切命令,确保流程透明可复现。对于大规模生成,建议直接调用‘turkic-ocr-tools generate’并指定配置文件,或使用‘pipeline’命令一键完成从生成到SFT导出的完整流程。评估方面,用户可提交预测结果JSONL文件,借助脚本计算字符错误率、词错误率、表格准确率及退化影响等关键指标,全面衡量模型性能。
背景与挑战
背景概述
TurkicOCR-VL数据集由研究团队于近年创建,聚焦于突厥语族西里尔字母文档的光学字符识别与视觉语言建模。该数据集的核心研究问题在于解决哈萨克语、吉尔吉斯语、鞑靼语及巴什基尔语等低资源语言的文档识别需求,这些语言在通用OCR系统中长期被忽视。其影响力体现在通过合成数据生成管线、质量门控机制与基准测试工具,为构建可复现的OCR视觉语言模型提供了完整生态,推动了多语言文档理解领域的发展。
当前挑战
该数据集面临的核心挑战包括:一是领域问题层面,突厥语族西里尔字母包含大量易混淆的特殊字符(如ә/а、қ/к、ң/н等),且真实办公扫描件常混合多语言、表格或表单,图像质量退化严重,导致通用OCR系统难以准确识别;二是构建过程中,需要设计高保真合成数据生成管线,模拟多种退化场景,并建立严格的质量验证与泄漏检测流程,以确保训练与评估数据的独立性和可靠性,这对数据规模与质量控制提出了双重考验。
常用场景
经典使用场景
在突厥语系西里尔文文档的数字化处理领域,TurkicOCR-VL数据集扮演着奠基性的角色。其最经典的应用场景在于构建与评估面向哈萨克语、吉尔吉斯语、鞑靼语及巴什基尔语的OCR视觉语言模型。该数据集通过精细化的合成数据生成流程,模拟了真实办公场景中多语言混杂、表格结构复杂、图像质量退化等挑战性条件,为训练能在低资源场景下准确识别特殊西里尔字母(如ә、қ、ғ、ң等)的模型提供了标准化训练与评测基准。研究者依托该数据集可系统性地验证模型对字符级细微差异的区分能力,推动突厥语系文本识别技术的突破。
实际应用
在实际产业应用中,TurkicOCR-VL数据集为突厥语系地区的文档数字化工作提供了关键支撑。在政府服务领域,它可用于自动处理哈萨克斯坦、吉尔吉斯斯坦等国官方表格、法律文书和登记档案的批量录入;在文化保护场景中,它助力历史西里尔文文献的数字化典藏与全文检索;在企业办公自动化方面,它赋能金融、物流等行业对混合俄语与突厥语言的商务单据进行高效识别与结构化输出。此外,该数据集支持的Markdown格式输出能力,使得从复杂排版文档(如包含表格或分栏的会议纪要)中提取清晰可读的文本成为可能,显著降低了人工校对成本,提升了跨语言信息处理的工作流效率。
衍生相关工作
基于TurkicOCR-VL数据集,一系列具有影响力的衍生工作得以展开。首先,项目本身以PaddleOCR-VL-1.5为基线模型,验证了合成数据对低资源突厥语言OCR性能的提升效果,并开源了完整的训练管线与质量评估工具链,为后续研究提供了可复现的基准。其次,数据集中严格的数据泄露检测机制与孤立基准数据集设计,启发了多语言OCR领域关于公平评测的规范性讨论,催生了多个关注训练-测试数据隔离的学术研究。此外,该项目通过提供不同语言配比、退化程度梯度的合成数据配置,促使研究者深入分析数据多样性对模型鲁棒性的影响,衍生出针对噪声文档、手写体与印刷体混合等细分课题的专项探索,极大丰富了突厥语系视觉语言模型的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作