TokenIT

github2025-03-19 更新2025-03-09 收录

下载链接：

https://github.com/Token-family/TokenFD

下载链接

链接失效反馈

官方服务：

资源简介：

TokenIT是第一个专门为文本图像相关任务设计的token级别图像文本数据集，包含2000万张图像和18亿个token-mask对。

TokenIT is the first token-level image-text dataset specifically designed for text-image related tasks, which contains 20 million images and 1.8 billion token-mask pairs.

创建时间：

2025-02-24

原始信息汇总

数据集概述

数据集名称

TokenFD

数据集简介

TokenFD是一个针对文本图像相关任务设计的首个token级视觉基础模型，旨在支持多种传统下游应用。为促进TokenFD的预训练，研究团队构建了首个token级图像文本数据集TokenIT，包含2000万张图像和18亿个token-mask对。此外，利用TokenFD出色的图像作为文本的能力，研究团队将其与先前的VFMs模型相结合，构建了适用于VQA基于文档理解的MLLM模型TokenVL。

数据集详情

TokenIT数据集：包含2000万张图像和18亿个token-mask对。
TokenFD模型：首个token级文本图像基础模型，支持下游任务。
TokenVL模型：基于TokenFD的视觉基础模型，进一步开发用于文档理解的MLLM。

安装指南

使用conda创建Python环境并安装所需的依赖包。

bash conda create -n TokenFD python=3.9 conda activate TokenFD pip install -r requirements.txt

快速开始

提供了加载数据、模型、执行查询和生成相似度地图的Python代码示例。

Streamlit Demo

通过Streamlit提供了一个交互式演示，用户可以上传图像并输入相关文本，实时查看TokenFD的处理结果。

数据集结构

TokenIT数据集的每个样本包括原始图像、掩码图像和JSON文件，JSON文件提供了问题-答案对以及从答案中随机选择的几个BPE tokens。

模型架构

TokenFD模型通过将token级图像特征和token级语言特征对齐在同一语义空间内，无缝支持用户交互式应用，包括文本分割、检索和视觉问答。

模型版本

TokenFD系列模型包括不同配置的版本，例如TokenFD_2048_Bilingual_seg和TokenFD_4096_English_seg。

评估结果

TokenFD的视觉编码器性能在各种领域和任务上进行了全面评估，包括文本检索、图像分割和视觉问答。

TokenVL模型

TokenVL是基于TokenFD的视觉基础模型进一步开发的用于文档理解的MLLM，包括两个训练阶段：LLM引导的Token对齐训练和监督指令微调。

发布计划

计划发布TokenFD的推理代码和权重，以及CharOCR、TokenVL的代码和模型检查点，还有TokenVL预训练和微调的数据。

许可

该项目的发布遵循MIT许可证。

引用

如果这个项目对您的研究有帮助，请考虑引用相关论文。

搜集汇总

数据集介绍

构建方式

TokenIT数据集的构建采取了一种高质量数据生成管道，该管道整合了2000万张图像和18亿个token-mask对，为TokenFD模型的预训练提供了坚实基础。每一样本包含原始图像、掩码图像以及包含问题-答案对和随机选择的BPE tokens的JSON文件，实现了每个BPE token与像素级掩码的一一对应。

使用方法

使用TokenIT数据集，用户需要首先根据README文件中的说明安装必要的依赖环境。之后，可以通过加载预训练的TokenFD模型，对图像进行token级别的处理和分析。数据集提供的脚本和工具可以帮助用户轻松地加载和操作数据，以及进行模型的训练和评估。

背景与挑战

背景概述

TokenIT数据集的发布标志着文档理解领域的一个重要进展。该数据集由Tongkun Guan等研究人员于2025年创建，包含2000万张图像和18亿个token-mask对，是首个专为文本图像相关任务设计的token-level视觉基础模型。TokenIT的构建，旨在支持诸如文本分割、检索和视觉问答等传统下游应用。此外，借助其卓越的图像作为文本的能力，研究团队进一步开发了名为TokenVL的文档级多语言模型，以应对VQA基础的文档理解任务。TokenIT数据集的推出，为相关领域的研究提供了重要的基础资源，推动了文档理解技术的发展。

当前挑战

在构建TokenIT数据集的过程中，研究人员面临了诸多挑战。首先，创建一个高质量的数据生成管道以构建首个token-level图像文本数据集，需要解决数据采集、处理和配对的问题。其次，所提出的TokenFD模型在实现token-level视觉特征与语言特征的统一语义空间对齐方面存在技术难题。此外，TokenIT数据集在图像分割、文本检索和视觉问答等领域的应用，也面临着模型性能评估和优化的问题。这些挑战不仅考验了研究团队的技术创新能力，也推动了文档理解领域的技术进步。

常用场景

经典使用场景

TokenIT数据集作为首个基于Token级别的图像文本数据集，其经典使用场景在于支持Token-level Text Image Foundation Model（TokenFD）的预训练。TokenFD模型能够处理文本图像相关任务，如文本分割、检索以及视觉问答等，这些任务均依赖于TokenIT提供的高质量图像和文本掩码对。

解决学术问题

TokenIT数据集解决了传统视觉基础模型在处理文本图像任务时缺乏细粒度理解的问题。通过提供与图像像素级别一一对应的BPE Token掩码，该数据集使得模型能够更好地学习文本与图像之间的关联，从而提高模型在视觉问答、文本检索等学术研究任务中的表现。

实际应用

在实际应用中，TokenIT数据集的应用场景广泛，包括但不限于文档解析、信息抽取、图像内容理解等。它为文档智能处理领域提供了强有力的数据支持，有助于推动相关技术的商业化和产业化进程。

数据集最近研究