Khmer Text Detection Dataset

github2024-11-11 更新2024-11-12 收录

下载链接：

https://github.com/EmHengly/Khmer-text-detection-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10,050张合成图像，每张图像包含75-300个高棉文字，专为文字检测任务设计。图像以XML和YOLOv8格式进行标注，确保了文字位置和结构的详细注释。

This dataset contains 10,050 synthetic images, each with 75 to 300 Khmer characters, and is specifically designed for text detection tasks. The images are annotated in both XML and YOLOv8 formats, ensuring detailed annotations of text positions and structures.

创建时间：

2024-11-11

原始信息汇总

Khmer Text Detection Dataset

概述

该数据集包含10,050张合成图像，专门设计用于文本检测任务，每张图像包含75-300个单词，并使用两种格式进行标注：XML和YOLOv8。数据集通过随机应用10种高棉字体，字体大小固定为20，确保文本外观的多样性。

数据集结构

图像文件夹：包含10,050张带有高棉文本的图像。
XML标注：每张图像都有一个关联的XML文件，包含以下元素：
- <image>：图像文件名。
- <width>：图像宽度。
- <height>：图像高度。
- <paragraph>：标注整个段落。
- <line>：表示文本的单行。
- <word>：指定图像中每个单词的边界框坐标。
XML文件提供了图像中文本位置和结构的详细标注。
YOLOv8标注：每张图像都有一个关联的YOLOv8格式的文本文件，采用归一化边界框格式，适用于YOLOv8进行文本检测。格式包括类别标签和归一化坐标（x_center, y_center, width, height），用于每个检测到的单词。

示例图像

以下是数据集中的一张示例图像及其标签结构：

XML文件示例

以下是XML标注的结构示例： xml <metadata> <image>kh_data_323.png</image> <width>803</width> <height>784</height> <paragraph/> <paragraph id="1"> <line id="1"> <word> <text>ក្រសួង</text> <bbox> x1="65" y1="10" x2="127" y2="42" </bbox> </word> ... </line> </paragraph> </image>

YOLO文件示例

每个YOLOv8标注文件包含每行一个单词：

<class_id> <x_center> <y_center> <width> <height> 0 0.028402 0.039613 0.030383 0.044014

其中：

<class_id>：通常设置为0（用于单类高棉文本检测）。
<x_center>, <y_center>, <width>, <height> 归一化到范围 [0, 1]。

开始使用

下载数据集：您可以从Kaggle链接下载数据集文件：(https://www.kaggle.com/datasets/emhengly/khmer-text-detection-dataset)。
解压缩文件：如果文件是压缩格式，请确保解压缩下载的文件。

引用

如果您在研究中使用此数据集，请引用： Em, H., Valy, D., Gosselin, B. & Kong, P. (2024). Word Spotting on Khmer Printed Documents. Techno Science Research Journal (TSRJ).

搜集汇总

数据集介绍

构建方式

该数据集通过合成方式生成，包含10,050张带有高棉文字的图像，专为文本检测任务设计。每张图像包含75至300个单词，并采用两种标注格式：XML和YOLOv8。图像中的文字通过随机应用10种高棉字体，并固定字体大小为20，以确保文本外观的多样性。XML标注文件详细记录了图像的宽度、高度、段落、行和每个单词的边界框坐标，而YOLOv8标注文件则采用标准化边界框格式，便于直接用于YOLOv8模型进行文本检测。

特点

此数据集的显著特点在于其合成图像的高多样性和详细标注。每张图像不仅包含丰富的文字内容，还通过多种字体和固定字体大小确保了文本外观的多样性。XML和YOLOv8两种标注格式提供了全面的文本位置和结构信息，使得该数据集适用于多种文本检测模型。此外，数据集的合成性质确保了其广泛适用性和高可靠性，为高棉文字的文本检测研究提供了坚实的基础。

使用方法

使用该数据集时，首先需从Kaggle链接下载数据文件并解压缩。随后，可根据需求选择XML或YOLOv8标注文件进行文本检测模型的训练或评估。XML文件适用于需要详细文本结构信息的场景，而YOLOv8标注文件则适用于直接与YOLOv8模型兼容的检测任务。在使用过程中，建议参考提供的示例图像和标注文件结构，以确保正确理解和应用数据集。

背景与挑战

背景概述

Khmer Text Detection Dataset 是一个专为高棉语文本检测任务设计的数据集，由ViLa Lab的研究团队于2024年创建。该数据集包含10,050张合成图像，每张图像包含75至300个高棉文字，并采用XML和YOLOv8两种格式进行标注。数据集通过随机应用10种高棉字体，确保了文本外观的多样性，为高棉语文本检测研究提供了丰富的资源。该数据集的发布不仅推动了高棉语文本识别技术的发展，也为复杂脚本文本识别领域的研究提供了新的视角和方法。

当前挑战

Khmer Text Detection Dataset在构建过程中面临多项挑战。首先，合成图像的生成需要确保文本的自然分布和多样性，这要求对字体、布局和背景进行精细控制。其次，标注过程复杂，需同时生成XML和YOLOv8格式的标注文件，确保每种格式的准确性和一致性。此外，高棉语作为一种复杂脚本，其字符结构和书写规则增加了文本检测的难度。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理和计算机视觉领域，Khmer Text Detection Dataset 被广泛用于高棉语文本检测任务。该数据集通过合成图像的方式，提供了丰富的文本实例，涵盖了75至300个单词，并采用XML和YOLOv8两种标注格式，使得研究者能够针对不同模型进行训练和评估。其多样化的字体和固定字体大小确保了文本外观的变异性，从而提高了模型的泛化能力。

衍生相关工作

基于 Khmer Text Detection Dataset，研究者们开发了多种文本检测和识别模型，如基于深度学习的YOLOv8模型，显著提升了高棉语文本的检测精度。此外，该数据集还激发了针对复杂脚本文本识别的跨领域研究，推动了多语言文本处理技术的发展。相关工作不仅在高棉语领域取得了显著成果，也为其他非拉丁字符集的文本识别研究提供了宝贵的参考。

数据集最近研究