five

DT-VQA

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/Yuliang-Liu/MultimodalOCR
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为DT-VQA,包含了17万个问题-答案对,这些对子是从3万张图片中生成的,主要关注文档、表格和产品描述中密集文本的内容。该数据集旨在探索大型多模态模型(LMMs)在处理密集文本任务上的能力,并包含了多种图像风格,如结构化的表格和未结构化的场景图像。规模上,该数据集由3万张图片生成了17万个问题-答案对。其任务是针对密集文本图像进行视觉问题回答(Vqa)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作