PhotoChat

Name: PhotoChat
Creator: 谷歌研究院
Published: 2021-07-06 22:03:04
License: 暂无描述

arXiv2021-07-06 更新2024-06-21 收录

下载链接：

https://github.com/google-research/googleresearch/tree/master/multimodalchat/

下载链接

链接失效反馈

官方服务：

资源简介：

PhotoChat是由谷歌研究院创建的第一个专注于在线消息中照片分享行为的人-人对话数据集。该数据集包含12,286个对话，每个对话都配有一张用户在对话中分享的照片。数据集的创建过程涉及从OpenImage V4数据集中选择图片，并通过众包插件生成对话。PhotoChat旨在解决智能系统如何有效辅助用户进行照片分享的问题，特别是在正确的时间推荐最相关的照片。数据集的应用领域包括照片分享意图预测和基于对话的图像检索，这些任务对于构建智能照片推荐系统至关重要。

PhotoChat is the first human-to-human conversation dataset focusing on photo-sharing behaviors in online messaging, created by Google Research. It contains 12,286 conversations, each paired with a photo shared by a user during the corresponding dialogue. The dataset was developed by selecting images from the OpenImage V4 dataset and generating conversations via crowdsourcing plugins. PhotoChat aims to address the challenge of how intelligent systems can effectively assist users with photo sharing, particularly in recommending the most relevant photos at the appropriate time. Its application areas include photo-sharing intention prediction and dialogue-based image retrieval, both of which are critical for building intelligent photo recommendation systems.

提供机构：

谷歌研究院

创建时间：

2021-07-06

搜集汇总

数据集介绍

构建方式

在即时通讯日益普及的背景下，PhotoChat数据集聚焦于在线对话中的照片分享行为，其构建过程体现了严谨的多模态数据采集理念。研究团队从Open Images V4数据集中筛选出涵盖人物、食物、动物和日常用品四大主题的图像，并基于89个精选对象标签构建图像池。通过亚马逊众包平台，招募参与者以自然对话形式生成文本，其中仅一方在对话初期知晓待分享图像，模拟真实社交场景中的信息不对称性。数据生成后，经由专业标注人员进行严格验证，剔除图像与对话关联性薄弱或内容不自然的样本，最终形成包含12,286组对话的高质量数据集。

使用方法

该数据集主要支持两项核心任务：照片分享意图预测和基于对话的图像检索。在意图预测任务中，模型需根据历史对话判断用户是否将在下一话轮分享照片，可采用BERT、ALBERT或T5等预训练模型进行微调，输入序列由历史话轮拼接而成并融入说话人信息。图像检索任务则要求模型根据对话上下文从候选池中检索最相关图像，可采用双编码器架构，分别编码图像特征和文本特征后计算相似度，也可采用VSE++、SCAN等跨注意力模型。数据集已划分为训练、验证和测试集，评估指标包括F1值、召回率等，为多模态对话系统的开发提供了基准平台。

背景与挑战

背景概述

随着即时通讯工具的普及，照片分享已成为增强在线对话参与度的常见行为。为促进智能照片推荐系统的研究，谷歌与快手技术团队于2021年联合推出了PhotoChat数据集，这是首个专注于在线消息中照片分享行为的人类对话数据集。该数据集包含1.2万条对话，每条对话均伴随一张在交流中分享的用户照片，核心研究问题在于探索如何基于文本对话理解进行图像检索，以及预测用户的照片分享意图，从而推动多模态图像-文本建模领域的发展。

当前挑战

PhotoChat数据集旨在解决照片分享场景中的两大挑战：在领域问题层面，模型需从对话中推断图像与文本的隐含关联，因为对话往往不直接描述图像主要内容，而是涉及背景故事或补充想象，且对话常包含与图像无关的干扰内容，这增加了跨模态对齐的难度。在构建过程中，挑战包括从大规模图像库中筛选符合日常分享主题的照片，以及通过众包生成自然对话的同时，确保图像与对话在分享前存在可学习的关联，避免内容脱节或低质量数据。

常用场景

经典使用场景

在即时通讯与多模态人工智能研究领域，PhotoChat数据集为探究图像与文本的联合建模提供了独特场景。该数据集聚焦于日常对话中用户分享照片的行为，通过包含12,286段真实人类对话及伴随分享的图像，构建了一个模拟在线聊天中照片共享过程的实验环境。研究者可基于此数据集，深入分析对话上下文如何隐含图像分享意图，以及如何从多模态信息中检索最相关图像，从而推动智能对话系统在视觉与语言交互方面的能力提升。

解决学术问题

PhotoChat数据集主要解决了多模态对话系统中两个核心学术问题：一是照片分享意图预测，即根据对话历史判断用户是否在下一轮对话中意图分享照片；二是基于对话的图像检索，即依据文本上下文从候选图像池中检索出最匹配的共享图像。这些问题突破了传统图像描述生成或视觉问答任务的单向模式，强调了从文本到图像的逆向推理过程，并挑战了模型在非显性关联和噪声对话中捕捉细粒度语义联系的能力，为跨模态理解研究提供了新的评估基准。

实际应用

在实际应用层面，PhotoChat数据集能够助力开发智能照片推荐系统，集成于即时通讯平台或社交应用中，自动适应用户对话上下文，在恰当时机建议相关照片，从而提升交互体验与沟通效率。此外，该数据集还可用于增强多模态对话机器人的能力，使其不仅能理解文本信息，还能结合视觉内容进行更自然、更贴切的回应，为在线客服、虚拟助手及娱乐聊天机器人等场景提供技术支持。

数据集最近研究