ThaiOCRBench
收藏arXiv2025-11-07 更新2025-11-08 收录
下载链接:
https://huggingface.co/datasets/scb10x/ThaiOCRBench
下载链接
链接失效反馈官方服务:
资源简介:
ThaiOCRBench是一个为泰语文本丰富的视觉理解任务设计的首个综合基准,包含13个任务类别和多样领域的2808个样本。该数据集旨在解决现有基准主要关注高资源语言,而泰语在需要文档结构理解的场景中代表性不足的问题。ThaiOCRBench为评估低资源、脚本复杂的设置中的视觉语言模型(VLMs)提供了一个标准化的框架,并为改进泰语文档处理提供了可操作的见解。
ThaiOCRBench is the first comprehensive benchmark designed for rich Thai text visual understanding tasks, containing 2808 samples across 13 task categories and diverse domains. This dataset aims to address the issue that existing benchmarks primarily focus on high-resource languages, while Thai is underrepresented in scenarios requiring document structure understanding. ThaiOCRBench provides a standardized framework for evaluating visual language models (VLMs) in low-resource, complex script settings, and offers actionable insights for improving Thai document processing.
提供机构:
泰国
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
在泰语文档视觉理解领域,数据资源的稀缺性促使ThaiOCRBench采用四阶段构建流程。该数据集通过原始拍摄、公共素材收集与合成生成相结合的方式获取图像,并严格遵循文化特异性和数据多样性原则。构建过程中实施了人工标注与质量验证机制,包括图像去标识化处理、基于余弦相似度的冗余过滤,以及基于大语言模型的问答对生成与人工修正,最终形成包含2,808个样本的多任务评估基准。
特点
作为首个全面覆盖泰语文本视觉理解任务的基准数据集,ThaiOCRBench展现出显著的领域特性。其涵盖13类任务场景,从细粒度文本识别到文档结构解析,全面评估视觉语言模型的多模态理解能力。数据集特别注重泰语文字特征,包含无词间间隔、叠加变音符号等独特语言现象,同时融合传统与现代字体变体,并纳入需要本土文化知识的视觉元素,为低资源语言场景下的模型评估提供立体化测试环境。
使用方法
该数据集支持零样本评估范式,研究者可通过标准化接口加载图像与对应问答对进行模型测试。评估体系采用多维度指标:结构理解任务使用树编辑距离,文本生成任务采用BLEU等复合指标,实体提取任务适用F1分数,语义理解任务则依赖标准化编辑相似度。这种分层评估机制能精准捕捉模型在不同任务类型中的能力差异,为泰语文档理解技术的迭代优化提供可靠依据。
背景与挑战
背景概述
随着视觉语言模型在多模态任务中的广泛应用,现有基准主要聚焦于高资源语言,导致泰语等低资源语言在文档结构理解任务中代表性不足。ThaiOCRBench由SCB 10X研发团队于2025年提出,作为首个针对泰语文本丰富视觉理解任务的综合性基准,涵盖13类任务共2,808个标注样本。该数据集通过整合真实场景图像与合成文档,系统评估模型在泰语复杂脚本、无词间距结构和多模态推理中的表现,填补了泰语文档智能分析领域的评估空白。
当前挑战
ThaiOCRBench需解决泰语文档理解中的核心挑战:首先,泰语独特的堆叠变音符号、无空格书写体系及头体/无头体字形的视觉歧义性,对字符级识别与语义解析构成显著障碍;其次,数据构建过程中需克服文化特异性内容标注的复杂性,包括本土化符号理解、敏感信息脱敏处理,以及通过人工与LLM协同生成高质量问答对时面临的语义对齐难题。此外,基准需平衡多任务评估指标对结构敏感性任务与生成式任务的覆盖,确保模型在细粒度文本识别、布局解析等场景中的稳健性。
常用场景
经典使用场景
在泰语文档智能处理领域,ThaiOCRBench作为首个综合性视觉语言理解基准,其经典应用场景聚焦于评估多模态模型对泰语文档的结构化解析能力。该数据集通过涵盖图表解析、表格重构、关键信息抽取等13类任务,系统检验模型在复杂排版、密集文本及多层级语义理解方面的表现,尤其擅长揭示模型对泰语特有文字特征(如无间隔书写、叠字符号)的适应程度。
解决学术问题
该数据集有效解决了低资源语言在视觉语言建模中的评估空白问题,为泰语文本密集图像理解任务提供了标准化测试框架。通过系统量化模型在细粒度文本识别、手写体提取等任务中的性能差距,揭示了语言偏见、结构失配等核心挑战,推动了多语言文档理解模型在语言学特征适配、跨模态对齐等方向的理论探索。
衍生相关工作
基于该数据集衍生的经典研究包括多模态模型的零样本泛化能力验证、低资源语言微调策略优化等方向。相关工作通过误差分解揭示了开源模型在泰语结构理解中的共性缺陷,进而催生了针对叠字符号处理的注意力机制改进、融合文化先验的视觉定位网络等创新方法。
以上内容由遇见数据集搜集并总结生成



