TokenIT

github2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/Token-family/TokenOCR

下载链接

链接失效反馈

官方服务：

资源简介：

TokenIT是第一个token级别的图像文本数据集，包含20百万图像和18亿token-mask对，用于TokenOCR模型的预训练。

TokenIT is the first token-level image-text dataset, encompassing 20 million images and 1.8 billion token-mask pairs, designed for the pretraining of TokenOCR models.

创建时间：

2025-02-24

原始信息汇总

TokenOCR 数据集概述

数据集简介

名称：TokenOCR
描述：TokenOCR 是一个针对文本图像相关任务设计的 token 级视觉基础模型，支持多种传统下游应用。为促进 TokenOCR 的预训练，研究者构建了第一个 token 级图像文本数据集 TokenIT，包含 2000 万张图像和 18 亿个 token-mask 对。

数据集详情

数据集组成：TokenIT 数据集，包含 2000 万张图像和 18 亿个 token-mask 对。
数据结构：每个样本包括原始图像、掩码图像和 JSON 文件，JSON 文件提供问题-答案对以及从答案中随机选择的若干 BPE token，及其在答案中的序号和在掩码图像上的像素值对应。
数据规模对比：与 CLIP、DINO、SAM 等视觉基础模型相比，TokenOCR 在图像数量和 token-mask 对数量上具有优势。

模型架构

TokenOCR 模型：token 级图像特征和 token 级语言特征在同一语义空间内对齐，支持文本分割、检索和视觉问答等交互式应用。

模型版本

TokenOCR_2048_Bilingual_seg：支持英中文交互，特征维度为 2048。
TokenOCR_4096_English_seg：仅支持英文交互，特征维度为 4096（推荐）。

评估

视觉能力评估：包括文本检索、图像分割和视觉问答三个关键类别。

TokenVL 模型

基于 TokenOCR：用于文档理解的 MLLM，包括两个训练阶段：LLM 指导的 Token 对齐训练和监督指令微调。

发布计划

已发布 TokenOCR 推断代码和权重。
计划发布 CharOCR、TokenVL 代码和模型 checkpoints、TokenVL 预训练和微调数据、TokenIT 数据和脚本。

许可

遵循 MIT 许可。

引用

若在研究中使用此项目，请引用相关论文。

BibTeX @inproceedings{guan2025TokenOCR, title={A Token-level Text Image Foundation Model for Document Understanding}, author={Tongkun Guan, Zining Wang, Pei Fu, Zhentao Guo, Wei Shen, Kai zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang}, journal={arXiv preprint arXiv:2503.02304}, year={2025} }

搜集汇总

数据集介绍

构建方式

TokenIT数据集的构建采取了一种高质量数据生产管道，该管道通过精心设计的图像文本配对，创建了首个基于token级别的图像文本数据集，包含2000万张图像和18亿个token-mask对，旨在支持TokenOCR模型的预训练。

使用方法

使用TokenIT数据集，用户需要先通过提供的脚本和工具安装必要的依赖环境，然后加载模型和分词器，处理图像和查询文本，通过模型获取相似度映射，并最终生成token级别的视觉结果。数据集的使用还包括了交互式演示和streamlit demo，方便用户直观体验模型能力。

背景与挑战

背景概述

TokenIT数据集的发布标志着文档理解领域的一个重要进展。该数据集由Tongkun Guan等研究人员于2025年提出，包含2000万张图像和18亿个token-mask对，是首个专门为文本图像相关任务设计的token级视觉基础模型TokenOCR的预训练而构建的。TokenIT的构建，不仅为文档理解任务提供了高质量的数据基础，也推动了token级文本图像基础模型的研究。TokenOCR的出现，进一步支持了多种传统下游应用，如文本分割、检索和视觉问答等，其图像作为文本的语义能力激发了TokenVL——一种针对文档感知、理解和推理的视觉问答基础模型的发展。

当前挑战

在构建TokenIT数据集的过程中，研究人员面临了诸多挑战。首先，如何构建一个高质量的数据生产管道以生成首个token级的图像文本数据集是一个重大挑战。其次，确保每个token与像素级mask的一一对应关系，需要对数据集的构建精度进行严格控制。此外，TokenOCR模型在训练和应用过程中，如何实现token级图像特征与token级语言特征的精确对齐，以及如何优化模型以适应不同的文档理解任务，都是当前和未来研究需要解决的问题。

常用场景

经典使用场景

TokenIT数据集作为首个基于Token级别的图像文本数据集，其经典使用场景在于为文档理解任务提供高质量的预训练基础。通过构建TokenOCR这一基于Token级别的文本图像基础模型，能够支持包括文本识别、检索以及视觉问答等多种传统下游应用，为研究者和开发者提供了一个强大的工具。

解决学术问题

TokenIT数据集及其衍生模型TokenOCR解决了学术研究中如何将图像与文本信息进行有效融合的问题。在文档理解、视觉问答等任务中，TokenOCR通过其独特的图像-文本对应能力，显著提升了模型对文本与图像关联信息的处理能力，从而推动了文档智能理解技术的发展。

实际应用

在实际应用中，TokenIT数据集和TokenOCR模型可应用于文档数字化、信息抽取、智能问答系统等领域，为金融、医疗、法律等行业提供了自动化处理文档内容的新方法，极大地提高了工作效率和准确性。

数据集最近研究