KhmerST

Name: KhmerST
Creator: 拉罗谢尔大学, 信息图像交互实验室 (L3i)
Published: 2024-10-24 05:04:24
License: 暂无描述

arXiv2024-10-24 更新2024-10-26 收录

下载链接：

https://gitlab.com/vannkinhnom123/khmerst

下载链接

链接失效反馈

官方服务：

资源简介：

KhmerST数据集是由拉罗谢尔大学的信息图像交互实验室创建的，专门用于低资源高棉语场景文本检测和识别任务。该数据集包含1,544张专家标注的图像，涵盖室内和室外场景，具有多样化的文本类型和光照条件。数据集的创建过程包括在柬埔寨各地采集图像，并使用VGG图像标注器进行标注，提供多边形边界框坐标和行级文本信息。KhmerST数据集旨在解决高棉语在自然场景中的文本检测和识别问题，适用于数字文档存档、自动翻译服务和增强技术应用的可达性。

The KhmerST dataset was developed by the Laboratory of Information, Image and Interaction of the University of La Rochelle, specifically tailored for low-resource Khmer natural scene text detection and recognition tasks. It comprises 1,544 expert-annotated images covering both indoor and outdoor scenarios, featuring diverse text types and lighting conditions. The dataset construction workflow includes collecting images across Cambodia and annotating them using the VGG Image Annotator, providing polygon bounding box coordinates and line-level text information. The KhmerST dataset aims to address the challenges of Khmer text detection and recognition in natural scenes, and supports applications such as digital document archiving, automatic translation services, and accessibility enhancement of technical applications.

提供机构：

拉罗谢尔大学, 信息图像交互实验室 (L3i)

创建时间：

2024-10-24

搜集汇总

数据集介绍

构建方式

KhmerST数据集的构建过程始于柬埔寨各地的实地图像采集，涵盖了街道、广告牌、超市和商业场所等多种场景。研究团队使用四种不同型号的智能手机（三星Galaxy A32、iPhone 8 Plus、iPhone 13 Pro Max和iPhone 14 Pro Max）捕捉了1,544张图像，确保了图像在不同光照条件和相机性能下的多样性。这些图像被分为室内（997张）和室外（547张）两类，每张图像均通过VGG Image Annotator（VIA）工具进行详细标注，包括文本区域的线级文本和多边形边界框坐标，以精确描述文本在图像中的位置和形状。

特点

KhmerST数据集的独特之处在于其针对低资源语言——高棉语（Khmer）的场景文本检测与识别任务进行了专门设计。该数据集不仅包含了室内和室外场景的多样化图像，还特别关注了高棉语特有的复杂字符结构，如字符堆叠、变音符号和非均匀字符宽度等。此外，数据集中的图像涵盖了平面文本、凸起文本、光照不佳的文本、远距离和部分遮挡的文本等多种挑战性场景，为模型训练提供了丰富的真实世界数据。

使用方法

KhmerST数据集适用于多种计算机视觉任务，包括场景文本检测、文本识别、文本分割和词检索等。研究者可以使用该数据集训练和评估针对高棉语的OCR模型，通过提供的训练集和测试集进行模型性能的验证。数据集的标注文件采用JSON格式，便于机器学习模型的读取和处理。此外，数据集还提供了基线模型（如YOLOv5、YOLOv8和YOLOv10）的性能基准，为研究者提供了参考和比较的依据，有助于推动高棉语场景文本识别技术的发展。

背景与挑战

背景概述

KhmerST数据集由La Rochelle大学Laboratoire Informatique Image Interaction (L3i)实验室的研究团队于2024年创建，旨在解决低资源语言场景文本检测与识别的难题。该数据集包含1,544张专家标注的图像，涵盖室内和室外场景，旨在捕捉柬埔寨语（Khmer）在自然环境中的多样性。KhmerST数据集的推出填补了非拉丁字符特别是Khmer字符在场景文本识别领域的空白，为计算机视觉技术在东南亚语言中的应用提供了宝贵的资源。

当前挑战

KhmerST数据集面临的挑战主要源于Khmer字符的复杂性及其在自然场景中的多样表现。Khmer字符具有字符堆叠、变音符号和非均匀字符宽度等特点，缺乏明确的词边界，使得传统基于拉丁字符的方法难以适用。此外，数据集构建过程中需处理光照不均、背景复杂和文本部分遮挡等问题，增加了检测与识别的难度。KhmerST数据集的推出旨在推动针对Khmer字符的先进解决方案，但其复杂性和低资源特性要求研究者开发更为精细和高效的模型。

常用场景

经典使用场景

KhmerST数据集的经典使用场景主要集中在低资源环境下的柬埔寨语场景文本检测与识别任务。该数据集通过提供1,544张专家标注的图像，涵盖了室内和室外多种复杂场景，包括平面文本、凸起文本、光照不足的文本以及部分遮挡的文本。这些图像的标注不仅包括文本内容，还有多边形边界框坐标，为研究人员提供了丰富的训练和测试资源，特别适用于开发针对柬埔寨语的场景文本检测与识别模型。

解决学术问题

KhmerST数据集解决了低资源语言场景文本检测与识别中的多个学术研究问题。首先，它填补了柬埔寨语场景文本数据集的空白，为研究人员提供了真实世界的数据，有助于开发和评估针对柬埔寨语的文本检测与识别算法。其次，该数据集揭示了非拉丁字符在复杂场景中的识别挑战，如字符堆叠、变音符号和无明确词边界等问题，推动了对这些问题的深入研究。此外，KhmerST数据集的引入促进了多语言和多脚本场景文本识别技术的进步，具有重要的学术意义和影响力。

衍生相关工作

KhmerST数据集的发布催生了多项相关研究工作。首先，基于该数据集，研究人员开发了多种针对柬埔寨语的场景文本检测与识别模型，如YOLO系列模型和TrOCR模型，这些模型在处理复杂文本场景时表现出色。其次，KhmerST数据集促进了低资源语言文本识别技术的研究，推动了多语言和多脚本OCR系统的开发。此外，该数据集还激发了对柬埔寨语字符编码和字形复杂性问题的深入探讨，为解决非拉丁字符识别难题提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集