Khmer Handwritten OCR Dataset

github2025-12-17 更新2026-01-06 收录

下载链接：

https://github.com/LaySopanha/Khmer-Handwritten-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的高棉语手写数据集合，来源于高中课程、家庭作业和考试。该数据集由柬埔寨数字技术学院（CADT）的学生为毕业设计项目编译和处理，专门用于训练高棉语手写OCR系统，如TrOCR。

A curated Khmer handwritten dataset sourced from high school curricula, homework assignments, and examinations. This dataset was compiled and processed by students from the Cambodia Academy of Digital Technology (CADT) for their undergraduate graduation projects, and is specifically designed for training Khmer handwritten OCR systems such as TrOCR.

创建时间：

2025-12-09

原始信息汇总

高棉语手写OCR数据集概述

数据集基本信息

数据集名称：高棉语手写OCR数据集
主要任务：光学字符识别
目标语言：高棉语
数据格式：JPEG图像
数据来源：柬埔寨数字技术学院毕业设计项目
许可证：知识共享署名 4.0 国际许可协议

数据内容与来源

内容来源：高中课程材料，包括课程内容、家庭作业和考试试卷。
内容描述：手写高棉语文本，包含行或单个单词。
脚本类型：高棉语元音附标文字。

数据集规模与统计

总样本量：154页，约3900个文本片段。
词汇编码：高棉语Unicode。
文件编码：UTF-8。

数据集结构

数据集仓库结构如下：

khmer-ocr-dataset/ ├── crops/ # 包含所有图像文件的目录 │ ├── crop_001.jpg │ ├── crop_002.jpg │ └── ... ├── labels.csv # 真实标签映射文件 └── README.md # 说明文档

数据格式详情

图像数据

格式：RGB JPEG格式。
背景处理：已掩膜为白色以降低噪声。
文件扩展名：.jpg。

标签数据

文件：labels.csv。
格式：CSV文件。
表头：file_name, text。
编码：UTF-8。
示例：

file_name text

img_001.jpg សួស្ដី

img_002.jpg ព្រះរាជាណាចក្រកម្ពុជា

使用说明

数据划分：未提供预定义的训练/测试集划分。建议使用固定的随机种子进行混洗和划分以确保可重复性。
主要用途：专为训练高棉语手写OCR系统设计，例如TrOCR模型。

团队成员与贡献者

Ly Leab：主要贡献者。
Lay Sopanha：编译和标准化者；构建了数据工程管道以整合格式、清理注释并标准化为统一结构。
Narith Sopheakleap：贡献者。
Hinge Sothida：贡献者。
Sok Sothika：贡献者。

预处理注意事项

标准化：确保分词器能正确处理高棉语Unicode。可能需要根据模型架构对零宽空格或特定辅音附标字符进行标准化。
过滤：尽管已对原始输入进行了标准化，但由于学生作业/考试的性质，部分手写体可能高度风格化或杂乱。

引用方式

若在研究中使用本数据集，请引用： bibtex @misc{khmer_ocr_dataset, author = {Leab, Ly and Sopanha, Lay and Sopheakleap, Narith and Sothida, Hinge and Sothika, Sok}, title = {Khmer Handwritten OCR Dataset (CADT Capstone)}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/LaySopanha/Khmer-Handwritten-Dataset}} }

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，针对高棉语手写文本的数据资源相对稀缺，本数据集的构建填补了这一空白。其构建过程依托柬埔寨数字技术学院学生的毕业设计项目，从高中课程、作业及考试材料中系统采集原始手写样本。通过数据工程流程对图像进行格式统一与背景净化，将背景统一处理为纯白色以降低噪声干扰，并采用UTF-8编码对高棉语字符进行标准化标注，最终形成包含约3900个文本片段的结构化数据集。

使用方法

使用该数据集时，研究者可通过克隆代码仓库获取全部资源，并利用提供的Python示例代码快速实现数据加载与可视化。数据集设计了可直接用于PyTorch框架的Dataset类，支持图像变换等预处理操作集成。针对高棉语文字特性，建议在使用前对Unicode字符进行规范化处理，特别是零宽空格和辅音附标字符的标准化。该数据集可与TrOCR等主流OCR训练框架无缝对接，通过设置数据根目录和标注文件路径即可融入现有训练流程。

背景与挑战

背景概述

高棉语手写光学字符识别数据集由柬埔寨数字技术学院的学生于2025年创建，旨在解决高棉语这一复杂阿布吉达文字在数字化进程中的识别难题。该数据集源自高中课程材料，包含约3900个手写样本，经过规范化处理，背景统一为白色以降低噪声干扰。作为专门为训练TrOCR等模型设计的资源，它不仅填补了高棉语手写OCR公共数据集的空白，也为推动东南亚语言的信息技术研究提供了关键基础。

当前挑战

高棉语手写OCR面临的核心挑战在于其阿布吉达文字系统的复杂性，字符组合多变且包含零宽空格等特殊Unicode编码，对模型的分词与识别精度构成严峻考验。在数据集构建过程中，由于手写样本直接采集自学生作业与考试，书写风格多样且存在潦草或非常规笔迹，增加了数据清洗与标注的难度。此外，数据规模相对有限，可能影响深度学习模型的泛化能力，需要研究者通过数据增强或迁移学习策略予以弥补。

常用场景

经典使用场景

在光学字符识别领域，特别是针对低资源语言的手写文本识别，该数据集为训练和评估模型提供了关键资源。其经典使用场景集中于支持基于Transformer的OCR系统，如TrOCR，通过提供高棉语手写样本，促进模型在复杂阿布吉达文字上的学习能力，从而推动多语言OCR技术的发展。

解决学术问题

该数据集有效解决了高棉语手写识别研究中数据稀缺的核心问题，为学术界提供了标准化的基准测试平台。它支持字符分割、序列建模及跨语言迁移学习等研究，尤其针对非拉丁文字系统的识别挑战，填补了东南亚语言OCR领域的空白，对保护文化遗产和促进语言技术平等具有重要意义。

实际应用

在实际应用中，该数据集能够赋能教育数字化进程，例如自动批改学生手写作业和考试卷，提升教学效率。同时，它支持文档数字化归档、历史手稿转录以及移动端高棉语输入法开发，为柬埔寨及周边地区的公共服务、文化机构和商业应用提供可靠的技术基础。

数据集最近研究

file_name	text
`img_001.jpg`	សួស្ដី
`img_002.jpg`	ព្រះរាជាណាចក្រកម្ពុជា