大模型图文问答评估基准数据集
收藏北京市数据知识产权2026-05-06 更新2026-05-07 收录
下载链接:
https://webs.bjidex.com/sys-bsc-home/#/bscConsole/intellectualProperty/infoPublicity?action=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集适用于图像-文本大模型跨模态视觉理解与推理能力的评估,特别是在对抗性攻击鲁棒性测试和视觉问答任务中。从感知、推理,对每幅图像设置A B C D 4个文字选项,评估图像-文本大模型的多维度图像识别与判断能力。
使用条件:数据集以图像-问题-候选答案三元组形式构成,需结合图像与文本问答对进行模型训练或测试;适用于计算机视觉、自然语言处理、多模态学习等领域。
适用范围:可用于图像分类、目标定位、属性识别、场景理解、空间关系推理、身份识别、等视觉推理任务。
适用对象:人工智能研究人员、模型评估机构、高校大模型研发团队。
解决的主要问题:
测试模型在对抗攻击环境下的鲁棒性,并提供标准化的图文问答评测数据,用于量化模型在视觉理解于推理任务重的表现;
增强模型对复杂视觉场景的理解与推理能力;
支持对模型在细粒度视觉问答任务上的性能评估。
提供机构:
北京市科学技术研究院
搜集汇总
数据集介绍

背景与挑战
背景概述
大模型图文问答评估基准数据集是一个用于评估大模型在图文问答任务上表现的标准测试集合,旨在衡量模型对图像与文本联合理解及推理的能力。该数据集通常包含涵盖多种场景和难度的图文问答对,为模型性能的公平比较提供基准参考。
以上内容由遇见数据集搜集并总结生成



