TokenIT
收藏数据集概述
数据集名称
TokenFD
数据集简介
TokenFD是一个针对文本图像相关任务设计的首个token级视觉基础模型,旨在支持多种传统下游应用。为促进TokenFD的预训练,研究团队构建了首个token级图像文本数据集TokenIT,包含2000万张图像和18亿个token-mask对。此外,利用TokenFD出色的图像作为文本的能力,研究团队将其与先前的VFMs模型相结合,构建了适用于VQA基于文档理解的MLLM模型TokenVL。
数据集详情
- TokenIT数据集:包含2000万张图像和18亿个token-mask对。
- TokenFD模型:首个token级文本图像基础模型,支持下游任务。
- TokenVL模型:基于TokenFD的视觉基础模型,进一步开发用于文档理解的MLLM。
安装指南
使用conda创建Python环境并安装所需的依赖包。
bash conda create -n TokenFD python=3.9 conda activate TokenFD pip install -r requirements.txt
快速开始
提供了加载数据、模型、执行查询和生成相似度地图的Python代码示例。
Streamlit Demo
通过Streamlit提供了一个交互式演示,用户可以上传图像并输入相关文本,实时查看TokenFD的处理结果。
数据集结构
TokenIT数据集的每个样本包括原始图像、掩码图像和JSON文件,JSON文件提供了问题-答案对以及从答案中随机选择的几个BPE tokens。
模型架构
TokenFD模型通过将token级图像特征和token级语言特征对齐在同一语义空间内,无缝支持用户交互式应用,包括文本分割、检索和视觉问答。
模型版本
TokenFD系列模型包括不同配置的版本,例如TokenFD_2048_Bilingual_seg和TokenFD_4096_English_seg。
评估结果
TokenFD的视觉编码器性能在各种领域和任务上进行了全面评估,包括文本检索、图像分割和视觉问答。
TokenVL模型
TokenVL是基于TokenFD的视觉基础模型进一步开发的用于文档理解的MLLM,包括两个训练阶段:LLM引导的Token对齐训练和监督指令微调。
发布计划
计划发布TokenFD的推理代码和权重,以及CharOCR、TokenVL的代码和模型检查点,还有TokenVL预训练和微调的数据。
许可
该项目的发布遵循MIT许可证。
引用
如果这个项目对您的研究有帮助,请考虑引用相关论文。




