TokBench
收藏arXiv2025-05-24 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/Junfeng5/TokBench
下载链接
链接失效反馈官方服务:
资源简介:
TokBench是一个包含丰富文本和面部内容的图像数据集,旨在评估视觉标记器在图像重建方面的性能。数据集由12,398张图像和403段视频剪辑组成,涵盖了自然场景和文档环境,并平衡了面部和文本内容的空间尺度分布。通过OCR模型和面部识别模型,评估了文本重建质量和面部重建保真度,为视觉生成模型的上限探索提供了有意义的补充。
TokBench is an image dataset rich in textual and facial content, designed to evaluate the performance of visual tokenizers in image reconstruction tasks. It comprises 12,398 images and 403 video clips, covering both natural scenes and document-centric environments, while balancing the spatial scale distribution of facial and textual content. By utilizing OCR models and facial recognition models, this dataset assesses text reconstruction quality and facial reconstruction fidelity, offering meaningful supplementary insights for exploring the upper performance limits of visual generative models.
提供机构:
华中科技大学
创建时间:
2025-05-24
原始信息汇总
数据集概述
基本信息
- 数据集名称: TokBench
- 许可证: CC BY 4.0
包含资产及其许可证
- Total-Text: BSD-3-Clause
- TextOCR: CC BY 4.0
- SROIE: MIT
- CORD: CC BY 4.0
- DocVQA: MIT
- ICDAR 2013: MIT
- ICDAR 2015: MIT
- Infographic: MIT
- WFLW: Apache 2.0
搜集汇总
数据集介绍

构建方式
TokBench数据集的构建过程体现了对视觉生成模型压缩质量的系统性评估需求。研究团队从公开数据源精心筛选了12,398张图像和403个视频片段(共51,590帧),这些素材富含人脸和文本内容,覆盖自然场景与文档环境。针对文本重建任务,采用OCR模型量化重构文本的可识别性,建立T-ACC(文本识别准确率)和T-NED(文本归一化编辑距离)双指标评估体系;对于人脸重建,则通过人脸识别模型提取特征向量计算F-Sim(人脸相似度)。视频评估采用逐帧分析策略,最终结果取帧间平均值。数据集构建过程中特别注重不同尺度样本的平衡分布,尤其关注小尺度目标的代表性,以充分挑战现有视觉压缩方法的性能极限。
特点
TokBench的核心价值在于其针对性的评估维度与高效的计算框架。区别于传统像素级或全局语义评估,该数据集创新性地聚焦人类视觉敏感的文字可读性和身份特征保持能力,这两个关键维度恰恰是现有评估体系中的薄弱环节。数据构成上,文本部分汇集了8个异构数据源,形成76,126个标注实例,涵盖多样化的字体、风格和背景;人脸部分则基于WFLW数据集扩展,最终包含17,700个有效面部样本。技术特色体现在评估流程的轻量化设计——仅需2GB显存和4分钟即可完成全部图像评估,视频评估亦可通过多GPU并行加速至6分钟。这种高效率使TokBench成为可快速迭代的视觉生成模型开发工具。
使用方法
使用TokBench进行模型评估需要遵循标准化的测试协议。首先将待测视觉分词器或VAE模型应用于数据集的图像/视频样本,执行压缩-重建流程。对于文本重建质量验证,需从重构图像中裁剪标注文本区域,输入PARSeq OCR模型获取识别结果,随后与原始标注计算T-ACC和T-NED指标。人脸评估则需通过insightface模型提取原始与重建面部特征,计算余弦相似度得到F-Sim分值。视频评估需逐帧处理并聚合统计结果。值得注意的是,评估时应保持输入分辨率与模型训练设定的一致性(如256×256或1024×1024),并通过中心填充和裁剪操作维持原始长宽比。该框架支持与传统指标(FID、PSNR等)的对比分析,但强调其作为语义级评估补充的核心定位。
背景与挑战
背景概述
TokBench是由华中科技大学的研究团队于2025年提出的视觉Tokenizer评估基准,旨在解决视觉生成模型中细粒度特征保留的关键问题。该数据集由Junfeng Wu、Dongliang Luo等学者构建,聚焦于文本和人脸这两类对人类感知最为敏感的视觉元素。在视觉生成领域,图像标记化技术虽推动了自回归模型的发展,但传统方法在离散化过程中不可避免地存在信息损失,制约了生成质量的上限。TokBench通过构建包含12,398张图像和403个视频片段(共51,590帧)的精选数据集,首次系统性地评估了不同视觉Tokenizer在文本可读性和人脸身份保持方面的重建能力,为提升视觉生成模型的细粒度表现提供了重要基准。
当前挑战
TokBench针对两大核心挑战展开研究:在领域问题层面,传统评估指标(如PSNR、SSIM)与人类感知存在显著差异,难以准确衡量文本和人脸这类细粒度内容的重建质量;在构建过程中,需解决小尺度目标评估的敏感性难题——数据筛选需确保5×5像素的最小字符可识别边界,并建立跨模态评估体系(OCR模型T-ACC/T-NED指标和面部识别模型F-Sim指标)。同时,视频Tokenizer评估还需克服时空压缩带来的帧间一致性保持挑战,以及海量帧级标注的计算效率问题。这些挑战使得TokBench成为首个系统评估视觉Tokenizer细粒度重建能力的多模态基准。
常用场景
经典使用场景
TokBench数据集在视觉生成领域中被广泛用于评估图像和视频tokenizer的重建性能,特别是在处理文本和人脸这两种具有挑战性的视觉内容时。通过收集和整理来自现有数据集的文本和人脸图像,TokBench提供了一个多样化的评估基准,确保评估的全面性和准确性。
实际应用
在实际应用中,TokBench被用于评估和改进视觉生成模型,特别是在需要高保真重建的场景中,如文档处理、人脸识别和视频生成。其轻量级的评估流程(仅需2GB内存和4分钟完成评估)使其在实际部署中具有高效性和可扩展性。
衍生相关工作
TokBench的提出推动了多个相关研究的发展,包括改进的视觉tokenizer设计(如VQGAN和VAR)、连续和离散tokenizer的融合研究(如TokenBridge和Layton),以及视频tokenizer的评估框架(如Cosmos-VAE和Step-Video)。这些工作进一步拓展了TokBench的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



