Intentonomy

Name: Intentonomy
Creator: 康奈尔大学
Published: 2021-03-28 10:24:46
License: 暂无描述

arXiv2021-03-28 更新2024-07-25 收录

下载链接：

https://github.com/kmnp/intentonomy

下载链接

链接失效反馈

官方服务：

资源简介：

Intentonomy是由康奈尔大学和Facebook AI合作创建的一个包含14,455张图像的数据集，旨在理解和分析社交媒体图像背后的人类意图。这些图像覆盖了日常生活的广泛场景，并根据社会心理学分类法手动标注了28种意图类别。数据集通过一种新颖的标注游戏收集标签，旨在捕捉人类的心理意象。Intentonomy数据集的应用领域包括识别假新闻和社交媒体上的误导信息，以及改善计算机视觉系统对人类意图的理解。

Intentonomy is a dataset consisting of 14,455 images, co-developed by Cornell University and Facebook AI, with the goal of understanding and analyzing human intentions behind social media images. These images cover a broad spectrum of daily life scenarios, and have been manually annotated with 28 intention categories based on a social psychology taxonomy. The dataset collects annotations through a novel annotation game designed to capture human mental imagery. Application scenarios of the Intentonomy dataset include detecting fake news and misinformation on social media, as well as improving computer vision systems' understanding of human intentions.

提供机构：

康奈尔大学

创建时间：

2020-11-11

原始信息汇总

Intentonomy 数据集概述

数据集介绍

数据集下载

名称：Intentonomy
内容：包含14K张图像，手动标注了28个意图类别，由心理学专家组织成层次结构。
下载方式：参见DATA.md。

标注方法

方法：采用“目的游戏”方法，通过Amazon Mechanical Turks获取意图标注。
详细说明：参见论文附录C。

研究内容

图像内容与人类意图的关系

研究目的：探讨视觉内容与意图之间的微妙联系。
研究结果：
1. 不同意图类别依赖不同的对象和场景进行识别。
2. 对于某些具有较大类内变化的类别，视觉内容对性能提升有限。
3. 关注相关对象和场景类别对意图识别有积极影响。

意图识别基线

框架：引入弱监督定位和辅助标签模式，缩小人与机器对图像理解的差距。
实现：提供loc_loss.py中的定位损失实现，需下载图像掩码并更新MASK_ROOT。
依赖库：需要cv2和pycocotools。

意图类别细分

细分依据：
1. 内容依赖：对象依赖（O-classes）、上下文依赖（C-classes）和其他。
2. 难度：根据视觉识别与随机结果的差距分为“简单”、“中等”和“困难”。
详细说明：参见论文附录A。

基线结果

验证集结果：

模型	Macro F1	Micro F1	Samples F1
VISUAL	23.03 $pm$ 0.79	31.36 $pm$ 1.16	29.91 $pm$ 1.73
VISUAL + $L_{loc}$	24.42 $pm$ 0.95	32.87 $pm$ 1.13	32.46 $pm$ 1.18
VISUAL + $L_{loc}$ + HT	25.07 $pm$ 0.52	32.94 $pm$ 1.16	33.61 $pm$ 0.92

测试集结果：

模型	Macro F1	Micro F1	Samples F1
VISUAL	22.77 $pm$ 0.59	30.23 $pm$ 0.73	28.45 $pm$ 1.71
VISUAL + $L_{loc}$	24.37 $pm$ 0.65	32.07 $pm$ 0.84	30.91 $pm$ 1.27
VISUAL + $L_{loc}$ + HT	23.98 $pm$ 0.85	31.28 $pm$ 0.36	31.39 $pm$ 0.78

验证集细分结果：

按内容依赖：

模型	对象	上下文	其他
VISUAL	25.58 $pm$ 2.51	30.16 $pm$ 2.97	21.34 $pm$ 0.74
VISUAL + $L_{loc}$	28.15 $pm$ 1.94	28.62 $pm$ 2.13	22.60 $pm$ 1.40
VISUAL + $L_{loc}$ + HT	29.66 $pm$ 2.19	32.48 $pm$ 1.34	22.61 $pm$ 0.48

按难度：

模型	简单	中等	困难
VISUAL	54.64 $pm$ 2.54	24.92 $pm$ 1.18	10.71 $pm$ 1.33
VISUAL + $L_{loc}$	57.10 $pm$ 1.84	25.68 $pm$ 1.24	12.72 $pm$ 2.31
VISUAL + $L_{loc}$ + HT	58.86 $pm$ 2.56	26.30 $pm$ 1.42	13.11 $pm$ 2.15

引用

tex @inproceedings{jia2021intentonomy, title={Intentonomy: a Dataset and Study towards Human Intent Understanding}, author={Jia, Menglin and Wu, Zuxuan and Reiter, Austin and Cardie, Claire and Belongie, Serge and Lim, Ser-Nam}, booktitle={CVPR}, year={2021} }

搜集汇总

数据集介绍

构建方式

Intentonomy数据集由来自Unsplash网站的高分辨率免费授权照片组成，这些照片被采样以包含与社交媒体标签相似的常见关键词，如“人”、“快乐”等。数据集中的图像涵盖了广泛的日常生活场景，如聚会、假期和工作等。图像的意图标签是通过一种名为“不满意替代品”的相似度比较任务手动标注的，该任务利用了“心理意象”的概念，即将示例图像映射到人们心中的视觉表示。为了确保标注质量，研究人员实施了一系列策略，包括招募合格的标注人员、动态检查标注进度并向标注人员提供反馈等。最终，Intentonomy数据集包含了12,740张训练图像、498张验证图像和1,217张测试图像，每张图像包含一个或多个意图类别。

特点

Intentonomy数据集的特点在于其广泛覆盖了日常生活中的各种场景，并且通过心理学专家组织的层次结构对图像进行了标注。数据集包含了28个意图类别，这些类别基于心理学研究中的社会心理分类法。此外，Intentonomy数据集还进行了一系列系统性研究，以评估视觉内容对意图分类的影响，包括对象和上下文信息以及文本信息（如标签）的贡献。研究结果表明，不同的意图类别依赖于不同的对象和场景集合进行识别，而对于某些类别，视觉内容对性能的提升可以忽略不计。此外，研究还揭示了关注相关对象和场景类别对于识别意图的益处。

使用方法

Intentonomy数据集可用于研究图像中视觉内容与意图之间的复杂关系。研究人员可以通过一系列控制实验来分析视觉信息如何影响意图识别。此外，数据集还可以用于开发多模态框架，该框架利用弱监督定位和辅助标签模态来缩小人类和机器对图像理解的差距。通过将视觉信息和文本信息相结合，可以显著提高意图预测的性能。

背景与挑战

背景概述

在社交网络日益普及的今天，图像已成为人们表达情感、分享生活的重要方式。然而，图像背后所蕴含的人类意图却难以被机器理解。为了解决这个问题，Intentonomy数据集应运而生。该数据集由Facebook AI、康奈尔大学和复旦大学的研究人员于2021年创建，旨在研究如何通过视觉信息来理解人类的意图。Intentonomy包含14,455张图像，这些图像涵盖了日常生活中各种场景，并经过人工标注，共包含28个意图类别，这些类别是根据社会心理学分类法得出的。该数据集的研究背景在于，理解社交媒体图像背后的意图对于打击虚假新闻和虚假信息等任务至关重要。

当前挑战

Intentonomy数据集在构建过程中面临着多个挑战。首先，意图的标注是一项主观性较强的任务，不同的人可能会对同一张图像的意图有不同的理解，这导致了标注的一致性问题。其次，图像背后的意图往往与特定的对象和场景相关，而不同的意图类别可能依赖于不同的对象和场景，这给意图识别带来了挑战。此外，视觉信息本身可能不足以代表某些意图类别，需要结合文本信息等其他模态来进行识别。最后，由于图像本身的多样性和复杂性，如何有效地利用视觉信息来提高意图识别的准确率也是一项挑战。

常用场景

经典使用场景

Intentonomy 数据集是一个用于理解社交媒体图像背后意图的视觉数据集。它包含 14,455 张高分辨率图像，覆盖日常生活场景，并由 28 个意图类别手动注释。该数据集用于研究视觉信息如何促进对人类意图的识别。经典的使用场景包括训练意图分类器，并分析视觉信息（如对象和上下文）以及文本信息（如标签）对意图识别的贡献。

衍生相关工作

Intentonomy 数据集的引入激发了更多关于人类意图理解的研究。一些相关的工作包括：1) 使用 Intentonomy 数据集研究视觉内容对意图识别的影响；2) 开发多模态框架，结合视觉信息和文本信息来提高意图识别的准确性；3) 探索使用弱监督定位和辅助标签模态来缩小人类和机器对图像理解的差距。这些相关工作都为理解人类意图提供了新的视角和方法。

数据集最近研究