TokenIT
收藏github2025-03-05 更新2025-03-06 收录
下载链接:
https://github.com/Token-family/TokenOCR
下载链接
链接失效反馈官方服务:
资源简介:
TokenIT是第一个token级别的图像文本数据集,包含20百万图像和18亿token-mask对,用于TokenOCR模型的预训练。
TokenIT is the first token-level image-text dataset, encompassing 20 million images and 1.8 billion token-mask pairs, designed for the pretraining of TokenOCR models.
创建时间:
2025-02-24
原始信息汇总
TokenOCR 数据集概述
数据集简介
- 名称:TokenOCR
- 描述:TokenOCR 是一个针对文本图像相关任务设计的 token 级视觉基础模型,支持多种传统下游应用。为促进 TokenOCR 的预训练,研究者构建了第一个 token 级图像文本数据集 TokenIT,包含 2000 万张图像和 18 亿个 token-mask 对。
数据集详情
- 数据集组成:TokenIT 数据集,包含 2000 万张图像和 18 亿个 token-mask 对。
- 数据结构:每个样本包括原始图像、掩码图像和 JSON 文件,JSON 文件提供问题-答案对以及从答案中随机选择的若干 BPE token,及其在答案中的序号和在掩码图像上的像素值对应。
- 数据规模对比:与 CLIP、DINO、SAM 等视觉基础模型相比,TokenOCR 在图像数量和 token-mask 对数量上具有优势。
模型架构
- TokenOCR 模型:token 级图像特征和 token 级语言特征在同一语义空间内对齐,支持文本分割、检索和视觉问答等交互式应用。
模型版本
- TokenOCR_2048_Bilingual_seg:支持英中文交互,特征维度为 2048。
- TokenOCR_4096_English_seg:仅支持英文交互,特征维度为 4096(推荐)。
评估
- 视觉能力评估:包括文本检索、图像分割和视觉问答三个关键类别。
TokenVL 模型
- 基于 TokenOCR:用于文档理解的 MLLM,包括两个训练阶段:LLM 指导的 Token 对齐训练和监督指令微调。
发布计划
- 已发布 TokenOCR 推断代码和权重。
- 计划发布 CharOCR、TokenVL 代码和模型 checkpoints、TokenVL 预训练和微调数据、TokenIT 数据和脚本。
许可
- 遵循 MIT 许可。
引用
- 若在研究中使用此项目,请引用相关论文。
BibTeX @inproceedings{guan2025TokenOCR, title={A Token-level Text Image Foundation Model for Document Understanding}, author={Tongkun Guan, Zining Wang, Pei Fu, Zhentao Guo, Wei Shen, Kai zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang}, journal={arXiv preprint arXiv:2503.02304}, year={2025} }
搜集汇总
数据集介绍

构建方式
TokenIT数据集的构建采取了一种高质量数据生产管道,该管道通过精心设计的图像文本配对,创建了首个基于token级别的图像文本数据集,包含2000万张图像和18亿个token-mask对,旨在支持TokenOCR模型的预训练。
使用方法
使用TokenIT数据集,用户需要先通过提供的脚本和工具安装必要的依赖环境,然后加载模型和分词器,处理图像和查询文本,通过模型获取相似度映射,并最终生成token级别的视觉结果。数据集的使用还包括了交互式演示和streamlit demo,方便用户直观体验模型能力。
背景与挑战
背景概述
TokenIT数据集的发布标志着文档理解领域的一个重要进展。该数据集由Tongkun Guan等研究人员于2025年提出,包含2000万张图像和18亿个token-mask对,是首个专门为文本图像相关任务设计的token级视觉基础模型TokenOCR的预训练而构建的。TokenIT的构建,不仅为文档理解任务提供了高质量的数据基础,也推动了token级文本图像基础模型的研究。TokenOCR的出现,进一步支持了多种传统下游应用,如文本分割、检索和视觉问答等,其图像作为文本的语义能力激发了TokenVL——一种针对文档感知、理解和推理的视觉问答基础模型的发展。
当前挑战
在构建TokenIT数据集的过程中,研究人员面临了诸多挑战。首先,如何构建一个高质量的数据生产管道以生成首个token级的图像文本数据集是一个重大挑战。其次,确保每个token与像素级mask的一一对应关系,需要对数据集的构建精度进行严格控制。此外,TokenOCR模型在训练和应用过程中,如何实现token级图像特征与token级语言特征的精确对齐,以及如何优化模型以适应不同的文档理解任务,都是当前和未来研究需要解决的问题。
常用场景
经典使用场景
TokenIT数据集作为首个基于Token级别的图像文本数据集,其经典使用场景在于为文档理解任务提供高质量的预训练基础。通过构建TokenOCR这一基于Token级别的文本图像基础模型,能够支持包括文本识别、检索以及视觉问答等多种传统下游应用,为研究者和开发者提供了一个强大的工具。
解决学术问题
TokenIT数据集及其衍生模型TokenOCR解决了学术研究中如何将图像与文本信息进行有效融合的问题。在文档理解、视觉问答等任务中,TokenOCR通过其独特的图像-文本对应能力,显著提升了模型对文本与图像关联信息的处理能力,从而推动了文档智能理解技术的发展。
实际应用
在实际应用中,TokenIT数据集和TokenOCR模型可应用于文档数字化、信息抽取、智能问答系统等领域,为金融、医疗、法律等行业提供了自动化处理文档内容的新方法,极大地提高了工作效率和准确性。
数据集最近研究
最新研究方向
TokenIT数据集为文本图像领域提供了首个基于token级别的图像文本数据集,包含2000万张图像和18亿token-mask对。TokenOCR模型作为首个token级别的文本图像基础模型,旨在支持传统下游应用任务。近期研究围绕TokenOCR模型的视觉基础模型能力和TokenVL模型在文档理解方面的应用展开,重点评估了其在文本检索、图像分割和视觉问答任务上的表现,为文档感知、理解和推理提供了新的方法。
以上内容由遇见数据集搜集并总结生成



