nayanabench-rendered

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/v1v1d/nayanabench-rendered

下载链接

链接失效反馈

官方服务：

资源简介：

NayanaBench Rendered Dataset是一个包含22种语言的大规模多语言场景文本数据集，共有4,400个合成渲染图像，每个图像中包含多个文本区域，适用于OCR、文本检测和多语言场景文本理解等任务。

创建时间：

2025-11-28

原始信息汇总

NayanaBench Rendered Dataset 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别: 图像到文本、文本检测、光学字符识别
语言: 多语言（22种语言）
标签: 多语言、OCR、场景文本、文本检测、合成数据、渲染文本
规模: 1K-10K
官方名称: NayanaBench Rendered Dataset

核心统计信息

图像总数: 4,400
文本区域总数: 23,980
支持语言: 22种
总大小: 3.03 GB (3105.4 MB)
数据格式: JPEG图像 + JSONL元数据

支持语言详情

语言代码	语言名称	图像数量	区域数量	大小 (MB)
ar	阿拉伯语	200	1,090	119.0
bn	孟加拉语	200	1,090	142.3
de	德语	200	1,090	140.7
en	英语	200	1,090	127.0
es	西班牙语	200	1,090	139.0
fr	法语	200	1,090	144.2
gu	古吉拉特语	200	1,090	135.0
hi	印地语	200	1,090	143.6
it	意大利语	200	1,090	138.3
ja	日语	200	1,090	118.7
kn	卡纳达语	200	1,090	163.4
ko	韩语	200	1,090	125.1
ml	马拉雅拉姆语	200	1,090	159.5
mr	马拉地语	200	1,090	140.4
or	奥里亚语	200	1,090	159.5
pa	旁遮普语	200	1,090	142.5
ru	俄语	200	1,090	143.5
sa	梵语	200	1,090	140.0
ta	泰米尔语	200	1,090	153.0
te	泰卢固语	200	1,090	162.4
th	泰语	200	1,090	124.9
zh	中文	200	1,090	143.4

数据结构

数据集按22种语言划分，每个语言目录包含：

JPEG格式图像文件
JSONL格式元数据文件

元数据字段

file_name: 图像文件名
language: ISO 639-1语言代码
font_used: 使用的字体文件名
regions: 文本区域列表，包含：
- bbox: 边界框坐标
- english_text: 原始英文文本
- translated_text: 目标语言翻译文本
- text_rendered: 实际渲染文本
- layout_type: 文本布局方向
- region_id: 区域标识符

应用场景

多语言OCR
文本检测
布局分析
跨语言迁移学习
字体识别

数据集创建

基于NayanaBench数据集，使用语言特定字体进行文本渲染，包含精确的边界框定位和质量控制的合成生成。

引用信息

bibtex @dataset{nayanabench_rendered_2024, title={NayanaBench Rendered Dataset: A Multilingual Scene Text Dataset}, author={Nayana Cognitive Lab}, year={2024}, publisher={Hugging Face}, url={https://huggingface.co/datasets/v1v1d/nayanabench-rendered} }

致谢

基础数据集: https://huggingface.co/datasets/Nayana-cognitivelab/NayanaBench
字体: Noto Sans字体系列和语言特定字体
渲染: Modal无服务器基础设施

搜集汇总

数据集介绍

构建方式

在构建多语言场景文本数据集的背景下，NayanaBench Rendered Dataset采用了合成渲染技术生成图像。该数据集基于NayanaBench原始图像，通过语言特定字体对文本进行精确叠加，确保每个语言分支包含200张图像和1,090个文本区域。渲染过程中使用模态并行处理框架，严格控制边界框坐标和布局类型，最终形成覆盖22种语言的4,400张高质量图像，总数据量达3.03GB。

使用方法

研究者可通过HuggingFace数据集库直接加载特定语言分支或完整数据集，利用标准化JSONL元数据解析图像与文本信息。典型应用流程包括：调用load_dataset函数指定语言代码获取数据，通过file_name字段定位图像文件，解析regions数组中的边界框坐标与渲染文本。这种模块化设计支持OCR模型训练、多语言文本检测及布局分析等任务，实现端到端的场景文本理解实验。

背景与挑战

背景概述

随着多语言场景文本理解需求的日益增长，NayanaBench Rendered Dataset于2024年由Nayana Cognitive Lab构建，旨在解决跨语言光学字符识别与文本检测的核心研究问题。该数据集通过合成渲染技术生成覆盖22种语言的4400张高质量图像，包含23980个文本区域，为多语言OCR模型训练与评估提供了标准化基准。其广泛的语言覆盖范围与精细的文本布局标注，显著推动了场景文本分析领域在全球化应用场景中的发展。

当前挑战

多语言场景文本识别面临字体多样性、文字方向差异及复杂背景干扰等核心挑战，该数据集通过合成渲染技术构建时需平衡语言间字符集特性与视觉一致性。构建过程中需克服跨语言文本对齐精度控制、多脚本字体渲染质量优化，以及合成数据与真实场景的语义鸿沟等问题，确保生成数据在保持语言特异性的同时具备实际应用价值。

常用场景

经典使用场景

在光学字符识别与多语言场景文本分析领域，NayanaBench Rendered数据集通过4400张合成渲染图像覆盖22种语言，为跨语言文本检测模型提供了标准化测试平台。其经典应用体现在对多语种OCR系统的端到端评估，研究者可利用精确的边界框标注与多语言文本区域，验证模型在复杂排版环境下的字符识别准确率与布局解析能力。

解决学术问题

该数据集有效解决了多语言OCR研究中数据稀缺与标注不一致的学术难题。通过提供涵盖阿拉伯语、梵语等非拉丁语系的标准化数据，支持文字方向识别、字体渲染特性分析等基础研究。其平行语料设计为跨语言迁移学习提供了实验基础，显著推进了低资源语言场景文本理解的技术边界。

实际应用

实际部署中，该数据集支撑了多语言文档数字化系统的开发，特别适用于国际商务文档处理与跨境物流标签识别场景。金融机构利用其训练的模型可自动提取多语言票据关键信息，教育科技领域则基于该数据开发了支持22种语言的实时翻译应用，显著提升了跨语言信息获取效率。

数据集最近研究