VQA-GEN
收藏arXiv2023-11-02 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2311.00807v1
下载链接
链接失效反馈官方服务:
资源简介:
VQA-GEN是由亚利桑那州立大学计算与增强智能学院创建的一个大规模多模态数据集,旨在通过视觉和文本的联合分布变化来测试和提高视觉问答(VQA)模型的泛化能力。该数据集包含超过二十三百万个问题-答案对,涵盖了从5到15个单词的问题长度和82,000个独特的词汇。数据集的创建过程涉及三个阶段:首先是通过风格迁移和图像损坏技术引入视觉变化;其次是使用反向翻译和基于角色的建模方法生成文本变化;最后是将变化后的图像和问题通过混合匹配过程重新组合,形成新的跨模态分布。VQA-GEN数据集的应用领域主要集中在提高VQA模型在多模态变化下的鲁棒性和泛化能力,解决现有数据集在处理多模态变化时的局限性。
提供机构:
计算与增强智能学院,亚利桑那州立大学
创建时间:
2023-11-02



