Khmer Text Detection Dataset
收藏Khmer Text Detection Dataset
概述
该数据集包含10,050张合成图像,专门设计用于文本检测任务,每张图像包含75-300个单词,并使用两种格式进行标注:XML和YOLOv8。数据集通过随机应用10种高棉字体,字体大小固定为20,确保文本外观的多样性。
数据集结构
-
图像文件夹:包含10,050张带有高棉文本的图像。
-
XML标注:每张图像都有一个关联的XML文件,包含以下元素:
<image>:图像文件名。<width>:图像宽度。<height>:图像高度。<paragraph>:标注整个段落。<line>:表示文本的单行。<word>:指定图像中每个单词的边界框坐标。
XML文件提供了图像中文本位置和结构的详细标注。
-
YOLOv8标注:每张图像都有一个关联的YOLOv8格式的文本文件,采用归一化边界框格式,适用于YOLOv8进行文本检测。格式包括类别标签和归一化坐标(x_center, y_center, width, height),用于每个检测到的单词。
示例图像
以下是数据集中的一张示例图像及其标签结构:
XML文件示例
以下是XML标注的结构示例: xml <metadata> <image>kh_data_323.png</image> <width>803</width> <height>784</height> <paragraph/> <paragraph id="1"> <line id="1"> <word> <text>ក្រសួង</text> <bbox> x1="65" y1="10" x2="127" y2="42" </bbox> </word> ... </line> </paragraph> </image>
YOLO文件示例
每个YOLOv8标注文件包含每行一个单词:
<class_id> <x_center> <y_center> <width> <height> 0 0.028402 0.039613 0.030383 0.044014
其中:
<class_id>:通常设置为0(用于单类高棉文本检测)。<x_center>,<y_center>,<width>,<height>归一化到范围 [0, 1]。
开始使用
- 下载数据集:您可以从Kaggle链接下载数据集文件:(https://www.kaggle.com/datasets/emhengly/khmer-text-detection-dataset)。
- 解压缩文件:如果文件是压缩格式,请确保解压缩下载的文件。
引用
如果您在研究中使用此数据集,请引用: Em, H., Valy, D., Gosselin, B. & Kong, P. (2024). Word Spotting on Khmer Printed Documents. Techno Science Research Journal (TSRJ).




