Spot-the-diff
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Spot-the-diff
下载链接
链接失效反馈官方服务:
资源简介:
在本文中,我们介绍了自动生成文本来描述两个相似图像之间的差异的任务。我们通过众包从视频监控镜头中提取的图像帧对的差异描述来收集一个新的数据集。要求注释者在一个简短的段落中简洁地描述所有差异。因此,我们的新数据集提供了一个机会来探索使语言和视觉保持一致并捕捉视觉显着性的模型。该数据集也可能是连贯多句生成的有用基准。我们执行第一次视觉分析,将不同像素的集群作为对象级差异的代理。我们提出了一个模型,该模型通过使用潜在变量将不同像素的集群与输出句子对齐来捕获视觉显着性。我们发现,无论是单句生成还是多句生成,所提出的模型都优于单独使用注意力的模型。
提供机构:
OpenDataLab
创建时间:
2022-05-23



