tamily-1
收藏Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/sasicodes/tamily-1
下载链接
链接失效反馈官方服务:
资源简介:
Tamily-1是一个古泰米尔语OCR合成数据集,由Solvari-1大型泰米尔语文本语料库的前20万个条目生成。数据集包含了渲染后的泰米尔语文本图像,以及各种增强和风格,适用于训练OCR模型。
创建时间:
2025-05-28
原始信息汇总
Tamily-1 数据集概述
基本信息
- 许可证: MIT License
- 数据集名称: tamily 1
- 语言: 泰米尔语 (ta)
- 数据来源: sasicodes/solvari-1
- 任务类别:
- 图像到文本
- 图像特征提取
- 标签: Vaṭṭeḻuttu
- 数据规模: 100K<n<1M
数据集描述
Tamily-1 是一个古代泰米尔语OCR合成数据集,基于 Solvari-1 泰米尔语文本语料库的前200,000行生成。该数据集包含带有各种增强和风格的泰米尔文本渲染图像,适用于训练OCR模型。
数据字段
image: 渲染的泰米尔文本PNG图像text: 原始泰米尔文本
数据配置
数据集被分割为每个包含5,000个样本的分片,命名为train_shard_XXX。具体配置如下:
- 0-5000: data/train_shard_000-*
- 5000-10000: data/train_shard_001-*
- 10000-15000: data/train_shard_002-*
- 15000-20000: data/train_shard_003-*
- 20000-25000: data/train_shard_004-*
- 25000-30000: data/train_shard_005-*
- 30000-35000: data/train_shard_006-*
- 35000-40000: data/train_shard_007-*
- 40000-45000: data/train_shard_008-*
- 45000-50000: data/train_shard_009-*
- 50000-55000: data/train_shard_010-*
- 55000-60000: data/train_shard_011-*
- 60000-65000: data/train_shard_012-*
- 65000-70000: data/train_shard_013-*
- 70000-75000: data/train_shard_014-*
- 75000-80000: data/train_shard_015-*
- 80000-85000: data/train_shard_016-*
- 85000-90000: data/train_shard_017-*
- 90000-95000: data/train_shard_018-*
- 95000-100000: data/train_shard_019-*
- 100000-105000: data/train_shard_020-*
- 105000-110000: data/train_shard_021-*
- 110000-115000: data/train_shard_022-*
- 115000-120000: data/train_shard_023-*
- 120000-125000: data/train_shard_024-*
- 125000-130000: data/train_shard_025-*
- 130000-135000: data/train_shard_026-*
- 135000-140000: data/train_shard_027-*
- 140000-145000: data/train_shard_028-*
- 145000-150000: data/train_shard_029-*
- 150000-155000: data/train_shard_030-*
- 155000-160000: data/train_shard_031-*
- 160000-165000: data/train_shard_032-*
- 165000-170000: data/train_shard_033-*
- 170000-175000: data/train_shard_034-*
- 175000-180000: data/train_shard_035-*
- 180000-185000: data/train_shard_036-*
- 185000-190000: data/train_shard_037-*
- 190000-195000: data/train_shard_038-*
- 195000-200000: data/train_shard_039-*
注释过程
每个文本渲染时包含以下随机元素:
- 纸张样式: 棕榈叶、浅棕榈叶、红石、白石、纸张
- 背景样式: 无线条、带线条、模糊、带线条和噪声
- 增强: 旋转、透视、污渍、墨水渗透
引用信息
bibtex @misc{tamily-1, author = {sasicodes}, title = {Tamily-1: Ancient Tamil OCR Synthetic Dataset}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/sasicodes/tamily-1}} }
搜集汇总
数据集介绍

构建方式
Tamily-1数据集作为古泰米尔OCR研究的重要资源,其构建过程体现了严谨的合成数据生成方法。该数据集基于Solvari-1泰米尔语料库的前20万行文本,通过系统化的图像渲染流程生成。每段文本均经过多重风格化处理,包括随机选择五种纸张样式(如棕榈叶、红石等)、四种背景样式(无线条、带线条等)以及四种图像增强技术(旋转、透视变换等),确保生成图像的多样性和真实性。数据采用分片存储策略,每5000个样本构成一个独立分片,共形成40个标准化数据单元。
特点
该数据集最显著的特征在于其高度仿真的古泰米尔文字图像合成技术。每张图像不仅包含原始泰米尔文本的真实渲染,还通过多维度风格变异模拟了古籍文档的各种物理形态。数据涵盖从棕榈叶手稿到石刻碑文等多种历史载体形态,配合墨水晕染、污渍等刻意引入的噪声模式,有效还原了真实古籍中的文本退化现象。这种精细的合成策略使数据集兼具语言准确性和视觉复杂性,为OCR模型训练提供了理想的挑战性样本。
使用方法
研究人员可通过Hugging Face平台便捷地访问这一数据集,其模块化的分片结构支持灵活的数据加载策略。使用时可选择加载特定范围的分片(如0-5000或195000-200000),或通过迭代方式处理全量数据。每个样本包含PNG格式的图像文件及其对应的原始文本,适合端到端的OCR模型训练。数据加载后可直接应用于图像到文本的转换任务,或作为特征提取任务的输入源。为获得最佳效果,建议配合数据增强技术进一步扩展训练样本的多样性。
背景与挑战
背景概述
Tamily-1数据集由研究团队sasicodes于2025年构建,专注于古泰米尔语的光学字符识别(OCR)任务。该数据集基于Solvari-1泰米尔语文本语料库的前20万行数据生成,通过多种增强技术模拟了古代文献的多样化呈现形式,包括随机纸张样式、背景风格及图像增强。作为首个大规模古泰米尔语OCR合成数据集,Tamily-1为濒危文字的数字保存及跨时代文献分析提供了关键资源,推动了低资源语言文档分析领域的研究进展。
当前挑战
该数据集面临的核心挑战在于古泰米尔语瓦泰卢图(Vaṭṭeḻuttu)文字的特殊性,其复杂字形和变体对OCR模型的泛化能力提出极高要求。构建过程中需平衡合成数据的真实性,既要模拟纸张老化、墨迹渗透等历史痕迹,又需避免过度噪声干扰模型训练。数据分片存储虽提升访问效率,但跨分片的风格一致性维护成为潜在难点,可能影响模型在多样化测试场景中的表现稳定性。
常用场景
经典使用场景
在古泰米尔文字识别研究中,Tamily-1数据集因其丰富的图像增强变体和标准化的文本标注,成为训练深度学习OCR模型的基准测试平台。该数据集通过模拟棕榈叶、石碑等历史载体形态,为研究者在复杂背景下提取文字特征提供了理想的实验环境。
解决学术问题
该数据集有效解决了古文字数字化过程中的关键挑战,包括载体退化导致的文本模糊、历史书写工具造成的墨迹扩散等问题。通过系统性的数据增强方法,为学术界建立了评估OCR模型鲁棒性的新标准,显著推进了南亚古文字保护的技术发展。
衍生相关工作
基于Tamily-1的基准测试催生了多项创新研究,包括《基于注意力机制的古泰米尔文跨载体识别》等论文。数据集作者团队进一步开发了Solvari-2语料库,扩展了马拉雅拉姆语等德拉威语系的OCR研究范畴。
以上内容由遇见数据集搜集并总结生成



