OmniDoc-TokenBench

github2026-05-14 更新2026-05-15 收录

下载链接：

https://github.com/alibaba/OmniDoc-TokenBench

下载链接

链接失效反馈

官方服务：

资源简介：

OmniDoc-TokenBench是一个专门设计用于评估文本丰富文档图像上VAE重建的精选基准数据集。它包含约3K个样本，涵盖九个类别（书籍、幻灯片、彩色教科书、考试试卷、学术论文、杂志、财务报告、报纸、笔记），支持中英文，并附带一个评估工具包，支持PSNR、SSIM、LPIPS、FID和基于OCR的NED指标。数据集基于OmniDocBench开发，通过裁剪、调整大小、过滤字符数和去重等步骤确保质量。

OmniDoc-TokenBench is a curated benchmark dataset specifically designed for evaluating VAE reconstruction on text-rich document images. It contains approximately 3K samples spanning nine categories: books, slides, colored textbooks, exam papers, academic papers, magazines, financial reports, newspapers, and notes. It supports both Chinese and English, and is equipped with an evaluation toolkit that supports PSNR, SSIM, LPIPS, FID and OCR-based NED metrics. The dataset is developed based on OmniDocBench, with its quality ensured through steps including cropping, resizing, character count filtering and deduplication.

创建时间：

2026-05-12

原始信息汇总

数据集概述

OmniDoc-TokenBench 是一个专门用于评估变分自编码器（VAE）在富含文本的文档图像上重建质量的基准数据集。

发布背景：在 Qwen-Image-VAE-2.0 工作中提出。
数据规模：包含约 3000 个样本。
图像尺寸：所有样本均调整为 256×256 像素。
语言覆盖：涵盖英文和中文。
类别分布：共9个类别，包括：书籍（book）、幻灯片（slides）、彩色教科书（color textbook）、试卷（exam paper）、学术论文（academic paper）、杂志（magazine）、财务报告（financial report）、报纸（newspaper）、笔记（note）。

数据来源与构建

该数据集衍生自 OmniDocBench。
构建流程：
1. 从文本块中裁剪每个样本。
2. 调整大小为 256×256。
3. 按字符数量筛选：中文范围为 [200, 600]，英文范围为 [300, 600]，以确保参考字体大小分别约为 16px 和 10px。
4. 通过 n-gram 重叠进行去重。
5. 进行人工质量审查。

评估指标

传统指标：PSNR（峰值信噪比）、SSIM（结构相似性）、LPIPS（学习感知图像块相似度）、FID（Fréchet 初始距离）。
核心文本保真度指标：NED（归一化编辑距离），用于衡量识别出的文本序列在原始图像和重建图像之间的相似度。NED 对语义损坏（如字符替换）敏感，是传统指标的重要补充。

性能表现

经过综合评估，Qwen-Image-VAE-2.0 在所有压缩比下均达到了最先进的重建水平。
在更紧凑的 f16c128 变量下，其 SSIM 达到 0.9706，PSNR 达到 30.45 dB，超越了最佳 f8 基线（FLUX.1-dev 的 0.9364 / 26.24 dB）。
文本保真度方面，f16c128 的 NED 达到 0.9617，优于所有被评估的 VAE。
在极端 f32 压缩下，f32c192 仍能达到 NED 0.8555，超越了多个 f16 基线模型。

下载地址

数据集可在 Hugging Face 下载：https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench

使用与评估

安装：需要安装 torch、piq、pytorch-fid、paddleocr、python-Levenshtein 等依赖。
下载：通过 Hugging Face CLI (hf download) 下载数据集。
评估：提供 eval_metrics.py 脚本，支持计算 NED、传统指标或全部指标，并可将结果输出为 results.json 和 ned_details.json 文件。
注意：首次运行 FID 和 LPIPS 评估需要下载模型权重文件。

许可协议

该数据集由阿里巴巴集团 Qwen 团队开发，采用 Apache License 2.0 许可。

搜集汇总

数据集介绍

构建方式

OmniDoc-TokenBench 是一个专为评估文本丰富文档图像的变分自编码器（VAE）重建质量而设计的基准数据集。其构建过程严谨而精细，首先从 OmniDocBench 数据集中裁剪每个样本的文本块并统一缩放至 256×256 分辨率。随后依据字符数量进行筛选，中文文本控制在 200 至 600 字符之间，英文文本则在 300 至 600 字符之间，以确保参考字体大小分别约为 16 像素和 10 像素。最后通过 n-gram 重叠方法进行去重，并辅以人工质量检查，保证了数据集的高质量和多样性。

特点

OmniDoc-TokenBench 涵盖了书籍、幻灯片、彩色教科书、试卷、学术论文、杂志、财务报告、报纸和笔记等九大类别，包含约 3000 个样本，且均提供中英文双语版本，具有广泛的领域代表性。除了传统的 PSNR、SSIM、LPIPS 和 FID 等评估指标外，该数据集创新性地引入了基于标准化编辑距离（NED）的文本保真度度量，能够敏感地捕捉字符替换等语义损坏，从而弥补传统指标在文本评估上的不足。

使用方法

用户可通过克隆 GitHub 仓库并安装所需依赖包来快速上手。数据集可从 Hugging Face 下载并放置于指定目录。使用流程包括：通过提供的示例脚本利用自定义的 VAE 模型对参考图像进行重建，随后将重建图像与原始图像一同输入评估工具箱，即可一键计算 NED 或结合传统指标进行全面评估。脚本支持指定输出目录和计算设备，并自动生成包含聚合指标与逐图像 OCR 结果的 JSON 文件，便于深入分析模型性能。

背景与挑战

背景概述

OmniDoc-TokenBench 是一个由阿里巴巴集团 Qwen 团队于2026年提出的细粒度基准数据集，旨在评估变分自编码器（VAE）在富含文本的文档图像上的重建性能。该数据集来源于 Qwen-Image-VAE-2.0 技术报告，包含约3000个样本，覆盖书籍、幻灯片、彩色教科书、考试试卷、学术论文、杂志、财务报告、报纸及笔记等九种文档类别，并支持中英双语。其核心研究问题在于如何精确衡量 VAE 在压缩文档图像时对文本语义的保真度，传统指标（如 PSNR、SSIM）难以捕捉字符替换等语义损坏。OmniDoc-TokenBench 通过引入归一化编辑距离（NED）作为主要文本保真度指标，填补了文档图像重建评估领域的空白，为高压缩比下的文本图像重建研究提供了标准化测试平台。

当前挑战

OmniDoc-TokenBench 所解决的领域挑战在于文档图像压缩与重建中的文本语义保真度评估。传统图像质量指标（如 PSNR、SSIM）在衡量文本细节的完整性时存在明显局限，无法有效反映字符错位、缺失或替换等语义失真。构建过程中面临的核心挑战包括：样本筛选需兼顾字体大小与字符密度，通过裁剪至256×256分辨率并过滤字符数范围（中文200-600、英文300-600）确保参考字号一致性；跨类型与跨语言的多样性要求数据集覆盖九种文档类别且双语平衡；为消除冗余，采用 n-gram 重叠检测进行去重，并辅以人工质检以保证数据质量。此外，NED 指标的计算依赖 OCR 模型精度，不同 OCR 引擎的识别差异可能引入评估偏倚，需谨慎选择与适配。

常用场景

经典使用场景

在视觉生成与压缩领域，OmniDoc-TokenBench被精心构建为评估变分自编码器（VAE）重建文本密集型文档图像质量的基准测试。该数据集涵盖书籍、幻灯片、彩色教科书、试卷、学术论文、杂志、财报、报纸与笔记等九类中英文样本，共计约3000张图像。其核心使用方式是将原始文本块裁剪并缩放至256×256分辨率，通过NED、PSNR、SSIM、LPIPS及FID等指标系统性地衡量重建图像对原始字符序列的保真度，尤其适用于对比不同空间压缩因子下VAE模型的语义完整性表现。

解决学术问题

该基准有效解决了传统图像质量评估指标（如PSNR与SSIM）在文本图像上对字符级语义失真（如替换、遗漏）不敏感的根本性缺陷。通过引入基于Levenshtein距离的归一化编辑距离（NED），OmniDoc-TokenBench使得研究者能够量化VAE重建对细粒度字符信息的保留程度，从而系统性地探究高倍率空间压缩下文本可识别性下降的机理。这一设计推动了变分自编码器在端到端图像生成任务中对内容完整性的优化方向，并为文本感知型视觉压缩算法的验证提供了标准化平台。

衍生相关工作

基于OmniDoc-TokenBench的评估框架，衍生出多项聚焦于文本感知图像编码的研究工作。例如，Qwen-Image-VAE-2.0在该基准上取得了领先的性能，其f16c128变体在PSNR与NED上分别达到30.45 dB与0.9617，验证了大语言模型团队所提出的高压缩比文本保留策略的有效性。后续研究可能进一步结合扩散模型微调或对抗训练，探索面向文档图像的专用量化变体；同时，该数据集的子集分类（如试卷与财报）也为跨领域迁移学习与少样本OCR增强提供了可复现的验证资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集