five

KhmerSynthetic1M

收藏
Hugging Face2026-02-01 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/SoyVitou/KhmerSynthetic1M
下载链接
链接失效反馈
官方服务:
资源简介:
KhmerSynthetic1MZip 是一个包含 1,000,000 张合成高棉语 OCR 图像的数据集,每张图像均配有对应的文本标签。图像以 JPEG 格式存储,文件名按顺序命名(如 img_00000001.jpg),并通过 metadata.parquet 文件进行索引以便快速浏览。数据集包含以下内容:图像文件夹、元数据文件(包含 id、image、img_path 和 label 字段)以及 SQLite 数据库文件。数据生成过程中使用了多种高棉语字体(及少量拉丁字体),并应用了曲线文本增强、噪声、光照、笔刷和污迹效果。图像经过压缩以减小文件大小(JPEG 质量约 32)。数据集适用于高棉语 OCR 任务,但仅限于研究和学术用途,禁止商业使用。使用数据集时需引用相关论文。
创建时间:
2026-02-01
原始信息汇总

KhmerSynthetic1M 数据集概述

基本信息

  • 数据集名称: KhmerSynthetic1M (Compressed)
  • 托管地址: https://huggingface.co/datasets/SoyVitou/KhmerSynthetic1M
  • 许可证: Apache-2.0
  • 标签: khmer, ocr, synthetic
  • 数据规模: 1,000,000 张图像

数据集内容与结构

  • 数据格式: 图像嵌入在 Parquet 文件中。
  • 主要目录与文件:
    • compressed_1m_dataset/: 包含 JPEG 格式的图像文件。
    • compressed_1m_dataset/metadata.parquet: 清单文件,包含以下列:
      • id: 整数行 ID。
      • image: 相对图像文件名。
      • img_path: 与 image 相同(为查看器显式提供)。
      • label: 真实文本标签。
    • compressed_1m_dataset.db: SQLite 数据库(generated_meta),镜像了清单内容。
  • 图像命名: 按顺序重命名(例如 img_00000001.jpg, …),并通过 metadata.parquet 建立索引,以便在 Hugging Face 数据查看器中快速浏览。

数据特征

数据集包含以下特征:

  • id: 数据类型为 int32。
  • image: 数据类型为 image。
  • label: 数据类型为 string。
  • file_name: 数据类型为 string。

生成说明

  • 使用多种高棉语字体(以及有限的拉丁字体)渲染,并应用了弯曲文本增强、噪声、光照、笔刷和污迹效果。
  • 图像经过压缩以减少尺寸(JPEG 质量约 32,可选调整大小)。
  • 文件名被扁平化/顺序化,以便于索引。

使用方式

python from datasets import load_dataset

ds = load_dataset("SoyVitou/KhmerSynthetic1M", streaming=True) row = next(iter(ds["train"])) print(row["image"], row["label"])

使用许可

仅限研究和学术用途。不允许商业用途。使用本数据集即表示您同意遵守这些条款。

引用

如果在论文中使用此数据集,请引用:

@inproceedings{YourName2024KhmerSynthetic1M, title = {KhmerSynthetic1M: Large-Scale Synthetic Khmer OCR Dataset}, author = {Your Name and Coauthors}, booktitle = {Proceedings of ...}, year = {2024} }

联系

问题或反馈:请在 Hugging Face 数据集页面发起讨论。

搜集汇总
数据集介绍
main_image_url
构建方式
在光学字符识别领域,合成数据集为低资源语言的研究提供了重要支持。KhmerSynthetic1M数据集通过程序化渲染生成,采用了多种高棉语字体并辅以有限的拉丁字符,以模拟真实文本的多样性。生成过程中引入了曲线文本增强技术,并叠加了噪声、光照、笔刷及污渍等视觉效果,从而提升了数据的真实性与复杂性。图像经过压缩处理,以JPEG格式存储并进行了序列化命名,便于高效索引与管理。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷加载此数据集,利用流式读取功能处理大规模图像数据。典型的使用流程包括加载数据集、迭代获取样本,并访问其图像与对应的文本标签。该数据集主要服务于学术研究,适用于训练与评估高棉语OCR模型,用户需遵守仅限研究与学术使用的许可协议,不得用于商业目的。
背景与挑战
背景概述
在光学字符识别(OCR)领域,低资源语言的数据稀缺问题长期制约着相关技术的发展。针对高棉语(Khmer)这一东南亚重要语言,研究人员于2024年创建了KhmerSynthetic1M数据集,旨在通过大规模合成数据解决高棉语OCR模型训练资源不足的核心研究问题。该数据集由SoyVitou等研究者构建,包含一百万张合成图像及其对应文本标签,采用多种高棉语字体并结合曲线文本增强、噪声与光照模拟等渲染技术,显著提升了数据多样性。作为首个大规模高棉语合成OCR数据集,它为低资源语言的信息处理研究提供了关键基础设施,推动了多语言OCR技术的均衡发展。
当前挑战
KhmerSynthetic1M数据集致力于应对高棉语光学字符识别中的双重挑战。在领域问题层面,高棉语字符结构复杂、连字规则独特,且公开真实标注数据极度匮乏,导致传统OCR模型难以准确识别手写体与印刷体变体。构建过程中,合成数据的真实性与多样性成为关键难题:需在多种字体基础上模拟自然场景下的弯曲文本、光照不均及噪声干扰,同时平衡数据规模与存储效率,通过JPEG压缩与序列化索引优化百万级图像的管理。这些挑战共同指向低资源语言合成数据在保真度、覆盖度与可用性上的平衡需求。
常用场景
经典使用场景
在光学字符识别领域,尤其是针对低资源语言的研究中,KhmerSynthetic1M数据集为高棉语文本识别提供了关键支持。该数据集通过合成方法生成一百万张带有标注的高棉语图像,涵盖了多种字体风格和视觉增强效果,如弯曲文本、噪声及光照变化,从而模拟真实世界中的复杂场景。研究人员通常利用该数据集训练和评估OCR模型,以提升模型在高棉语字符识别任务上的准确性和鲁棒性,特别是在处理手写体或印刷体变体时展现出重要价值。
解决学术问题
该数据集有效解决了高棉语OCR研究中数据稀缺的核心挑战,为学术探索提供了大规模、多样化的标注资源。通过合成技术生成丰富样本,它支持了低资源语言处理模型的开发,促进了跨语言OCR系统的公平性研究。其引入的噪声和增强效果模拟了实际应用中的干扰因素,有助于推动模型在鲁棒性、泛化能力方面的理论进展,并为多语言文本识别领域的算法创新奠定了实证基础。
实际应用
在实际应用中,KhmerSynthetic1M数据集为高棉语地区的文档数字化、自动化信息提取系统提供了关键训练数据。例如,在柬埔寨的政府档案管理、教育材料扫描以及商业票据处理中,基于该数据集训练的OCR模型能够高效识别高棉语文本,提升工作效率并降低人工成本。此外,它还可用于开发移动端扫描应用,支持文化遗产保护中的古籍数字化项目,助力语言技术的普及和社会信息化进程。
数据集最近研究
最新研究方向
在低资源语言处理领域,高棉语(Khmer)作为东南亚重要语言之一,其光学字符识别(OCR)技术因缺乏大规模标注数据而面临挑战。KhmerSynthetic1M数据集的发布,为高棉语OCR研究提供了百万级合成图像资源,推动了基于深度学习的端到端识别模型的发展。当前前沿研究聚焦于利用该数据集训练多语言OCR系统,结合迁移学习与数据增强策略,以提升模型在真实场景中的泛化能力。同时,该数据集促进了高棉语文档数字化与文化保存项目,响应了全球语言多样性保护的热点议题,对缩小数字鸿沟具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作