five

COFAR

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/COFAR
下载链接
链接失效反馈
官方服务:
资源简介:
使人类优于现代人工智能 (AI) 模型的一个特征是能够解释超出视觉上显而易见的图像。考虑以下两个自然语言搜索查询- (i) “耐心等待购买冰淇淋的顾客队列” 和 (ii) “前往印度著名的莫卧儿建筑的游客队列”。解释这些查询需要用 (i) 常识来推理,例如将人们解释为顾客或游客,等待购买或去看的行为; 以及 (ii) 与命名视觉实体相关的事实或世界知识,例如,图像中的商店是否出售冰淇淋,或者图像中的地标是否是位于印度的莫卧儿建筑。这种推理不仅仅是视觉识别。为了在图像搜索中实现常识和事实推理,我们提出了一个统一的框架,即知识检索-增强多模态变换器 (KRAMT),该框架将图像中的命名视觉实体视为通往百科全书知识的门户,并将其与自然语言一起利用查询以获取相关知识。此外,KRAMT无缝集成了视觉内容和基础知识,以学习图像和搜索查询之间的对齐方式。然后,此统一框架用于执行需要常识和事实推理的图像搜索。评估了KRAMT的检索性能,并将其与我们引入的新数据集 (即COFAR) 上的相关方法进行了比较。
提供机构:
OpenDataLab
创建时间:
2022-11-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作