odia-ocr-synth
收藏Odia OCR Synthetic Training Data 数据集概述
数据集基本信息
- 数据集名称:Odia OCR Synthetic Training Data
- 语言:奥里亚语 (Odia, ଓଡ଼ିଆ)
- 许可协议:MIT (代码) | 字体许可:SIL OFL 1.1 / Apache 2.0
- 任务类别:图像到文本
- 标签:ocr, odia, oriya, synthetic, text-recognition
- 数据规模:10K<n<100K
- 数据量:100,000 个合成图像-文本对
数据集描述
该数据集包含 100,000 个合成图像-文本对,用于训练奥里亚语 (Odia) 脚本的光学字符识别模型。
样本构成
每个样本包含:
- 一个包含渲染奥里亚文本的 PNG 图像
- 一个包含对应 Unicode 文本的真实标签
.gt.txt文件
生成详情
字体
- 字体家族:9 种 (Noto Sans/Serif Oriya, Anek Odia, Baloo Bhaina 2, Lohit Odia, Odia OT Jagannatha, Sakal Bharati, Nirmala UI)
- 字体变体:24 种 (不同字重:从 Thin 到 ExtraBold)
文本来源
- 奥里亚语维基百科 (91M 字符)
- Purnachandra 词典 (146K 定义)
- NIOS 教科书
- Wikisource 文献
- 工程/科学术语表
数据增强
应用了高斯噪声、模糊、旋转、透视扭曲、JPEG 压缩、墨水洇染、亮度/对比度变化。
难度级别
中等 (平衡增强以实现真实训练)
采样模式
| 模式 | 比例 | 描述 |
|---|---|---|
| 单词 | 20% | 单个词典单词 |
| 短语 | 20% | 2-5 个连续单词 |
| 句子 | 30% | 完整句子 |
| 段落 | 15% | 多句子块 |
| 混合 | 15% | 奥里亚语-英语双语对 |
数据集结构
完整结构
images/ # 100,000 个 PNG 文件 (0000000.png 到 0099999.png) ground_truth/ # 100,000 个文本文件 (0000000.gt.txt 到 0099999.gt.txt) metadata.csv # 完整的生成元数据
分片结构
数据存储在 data/ 目录下的 20 个 tar.gz 分片中,每个分片包含 5,000 个图像-文本对:
data/ shard_000000_004999.tar.gz # 样本 0-4999 shard_005000_009999.tar.gz # 样本 5000-9999 ... shard_095000_099999.tar.gz # 样本 95000-99999 metadata.csv # 完整的生成元数据
每个分片解压后包含:
images/0000000.png ... 0004999.png ground_truth/0000000.gt.txt ... 0004999.gt.txt
元数据文件 (metadata.csv) 列
image_path, gt_path, text, sample_mode, font_name, font_size, bg_color, text_color, line_spacing, augmentations, image_width, image_height, num_chars, num_words
使用方式
兼容 Tesseract, Kraken, EasyOCR, PaddleOCR 以及深度学习框架。
生成工具
使用开源工具 odia-ocr-synth 生成。




