five

COFAR

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/COFAR
下载链接
链接失效反馈
官方服务:
资源简介:
使人类优于现代人工智能 (AI) 模型的一个特征是能够解释超出视觉上显而易见的图像。考虑以下两个自然语言搜索查询- (i) “耐心等待购买冰淇淋的顾客队列” 和 (ii) “前往印度著名的莫卧儿建筑的游客队列”。解释这些查询需要用 (i) 常识来推理,例如将人们解释为顾客或游客,等待购买或去看的行为; 以及 (ii) 与命名视觉实体相关的事实或世界知识,例如,图像中的商店是否出售冰淇淋,或者图像中的地标是否是位于印度的莫卧儿建筑。这种推理不仅仅是视觉识别。为了在图像搜索中实现常识和事实推理,我们提出了一个统一的框架,即知识检索-增强多模态变换器 (KRAMT),该框架将图像中的命名视觉实体视为通往百科全书知识的门户,并将其与自然语言一起利用查询以获取相关知识。此外,KRAMT无缝集成了视觉内容和基础知识,以学习图像和搜索查询之间的对齐方式。然后,此统一框架用于执行需要常识和事实推理的图像搜索。评估了KRAMT的检索性能,并将其与我们引入的新数据集 (即COFAR) 上的相关方法进行了比较。
提供机构:
OpenDataLab
创建时间:
2022-11-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
COFAR是一个由哥伦比亚大学、埃森哲咨询公司和印度理工学院焦特布林分校于2022年发布的数据集,旨在支持图像搜索中的常识和事实推理评估。该数据集与KRAMT框架结合,通过检索百科全书知识来增强对图像中命名视觉实体的理解,以改进图像与自然语言查询的对齐。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作