five

nayanabench-rendered

收藏
Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/v1v1d/nayanabench-rendered
下载链接
链接失效反馈
官方服务:
资源简介:
NayanaBench Rendered Dataset是一个包含22种语言的大规模多语言场景文本数据集,共有4,400个合成渲染图像,每个图像中包含多个文本区域,适用于OCR、文本检测和多语言场景文本理解等任务。
创建时间:
2025-11-28
原始信息汇总

NayanaBench Rendered Dataset 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 任务类别: 图像到文本、文本检测、光学字符识别
  • 语言: 多语言(22种语言)
  • 标签: 多语言、OCR、场景文本、文本检测、合成数据、渲染文本
  • 规模: 1K-10K
  • 官方名称: NayanaBench Rendered Dataset

核心统计信息

  • 图像总数: 4,400
  • 文本区域总数: 23,980
  • 支持语言: 22种
  • 总大小: 3.03 GB (3105.4 MB)
  • 数据格式: JPEG图像 + JSONL元数据

支持语言详情

语言代码 语言名称 图像数量 区域数量 大小 (MB)
ar 阿拉伯语 200 1,090 119.0
bn 孟加拉语 200 1,090 142.3
de 德语 200 1,090 140.7
en 英语 200 1,090 127.0
es 西班牙语 200 1,090 139.0
fr 法语 200 1,090 144.2
gu 古吉拉特语 200 1,090 135.0
hi 印地语 200 1,090 143.6
it 意大利语 200 1,090 138.3
ja 日语 200 1,090 118.7
kn 卡纳达语 200 1,090 163.4
ko 韩语 200 1,090 125.1
ml 马拉雅拉姆语 200 1,090 159.5
mr 马拉地语 200 1,090 140.4
or 奥里亚语 200 1,090 159.5
pa 旁遮普语 200 1,090 142.5
ru 俄语 200 1,090 143.5
sa 梵语 200 1,090 140.0
ta 泰米尔语 200 1,090 153.0
te 泰卢固语 200 1,090 162.4
th 泰语 200 1,090 124.9
zh 中文 200 1,090 143.4

数据结构

数据集按22种语言划分,每个语言目录包含:

  • JPEG格式图像文件
  • JSONL格式元数据文件

元数据字段

  • file_name: 图像文件名
  • language: ISO 639-1语言代码
  • font_used: 使用的字体文件名
  • regions: 文本区域列表,包含:
    • bbox: 边界框坐标
    • english_text: 原始英文文本
    • translated_text: 目标语言翻译文本
    • text_rendered: 实际渲染文本
    • layout_type: 文本布局方向
    • region_id: 区域标识符

应用场景

  • 多语言OCR
  • 文本检测
  • 布局分析
  • 跨语言迁移学习
  • 字体识别

数据集创建

基于NayanaBench数据集,使用语言特定字体进行文本渲染,包含精确的边界框定位和质量控制的合成生成。

引用信息

bibtex @dataset{nayanabench_rendered_2024, title={NayanaBench Rendered Dataset: A Multilingual Scene Text Dataset}, author={Nayana Cognitive Lab}, year={2024}, publisher={Hugging Face}, url={https://huggingface.co/datasets/v1v1d/nayanabench-rendered} }

致谢

  • 基础数据集: https://huggingface.co/datasets/Nayana-cognitivelab/NayanaBench
  • 字体: Noto Sans字体系列和语言特定字体
  • 渲染: Modal无服务器基础设施
搜集汇总
数据集介绍
main_image_url
构建方式
在构建多语言场景文本数据集的背景下,NayanaBench Rendered Dataset采用了合成渲染技术生成图像。该数据集基于NayanaBench原始图像,通过语言特定字体对文本进行精确叠加,确保每个语言分支包含200张图像和1,090个文本区域。渲染过程中使用模态并行处理框架,严格控制边界框坐标和布局类型,最终形成覆盖22种语言的4,400张高质量图像,总数据量达3.03GB。
使用方法
研究者可通过HuggingFace数据集库直接加载特定语言分支或完整数据集,利用标准化JSONL元数据解析图像与文本信息。典型应用流程包括:调用load_dataset函数指定语言代码获取数据,通过file_name字段定位图像文件,解析regions数组中的边界框坐标与渲染文本。这种模块化设计支持OCR模型训练、多语言文本检测及布局分析等任务,实现端到端的场景文本理解实验。
背景与挑战
背景概述
随着多语言场景文本理解需求的日益增长,NayanaBench Rendered Dataset于2024年由Nayana Cognitive Lab构建,旨在解决跨语言光学字符识别与文本检测的核心研究问题。该数据集通过合成渲染技术生成覆盖22种语言的4400张高质量图像,包含23980个文本区域,为多语言OCR模型训练与评估提供了标准化基准。其广泛的语言覆盖范围与精细的文本布局标注,显著推动了场景文本分析领域在全球化应用场景中的发展。
当前挑战
多语言场景文本识别面临字体多样性、文字方向差异及复杂背景干扰等核心挑战,该数据集通过合成渲染技术构建时需平衡语言间字符集特性与视觉一致性。构建过程中需克服跨语言文本对齐精度控制、多脚本字体渲染质量优化,以及合成数据与真实场景的语义鸿沟等问题,确保生成数据在保持语言特异性的同时具备实际应用价值。
常用场景
经典使用场景
在光学字符识别与多语言场景文本分析领域,NayanaBench Rendered数据集通过4400张合成渲染图像覆盖22种语言,为跨语言文本检测模型提供了标准化测试平台。其经典应用体现在对多语种OCR系统的端到端评估,研究者可利用精确的边界框标注与多语言文本区域,验证模型在复杂排版环境下的字符识别准确率与布局解析能力。
解决学术问题
该数据集有效解决了多语言OCR研究中数据稀缺与标注不一致的学术难题。通过提供涵盖阿拉伯语、梵语等非拉丁语系的标准化数据,支持文字方向识别、字体渲染特性分析等基础研究。其平行语料设计为跨语言迁移学习提供了实验基础,显著推进了低资源语言场景文本理解的技术边界。
实际应用
实际部署中,该数据集支撑了多语言文档数字化系统的开发,特别适用于国际商务文档处理与跨境物流标签识别场景。金融机构利用其训练的模型可自动提取多语言票据关键信息,教育科技领域则基于该数据开发了支持22种语言的实时翻译应用,显著提升了跨语言信息获取效率。
数据集最近研究
最新研究方向
随着全球数字化进程加速,多语言场景文本理解成为计算机视觉领域的关键挑战。NayanaBench Rendered数据集凭借其覆盖22种语言的合成渲染特性,正推动多模态OCR技术向低资源语言扩展。当前研究聚焦于跨语言文本检测模型的迁移学习机制,通过对比不同语系的字体渲染特征,探索孟加拉文与泰米尔文等非拉丁文字的结构化识别范式。该数据集还为多语言文档布局分析提供了基准,助力解决全球化应用中文字方向混合排列的检测难题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作