McQueen

Name: McQueen
Creator: 中国香港中文大学
Published: 2022-10-24 00:32:33
License: 暂无描述

arXiv2022-10-24 更新2024-06-21 收录

下载链接：

https://github.com/yfyuan01/MQR

下载链接

链接失效反馈

官方服务：

资源简介：

McQueen数据集是由中国香港中文大学和阿里巴巴集团联合创建的大规模数据集，包含15,000个视觉对话和超过80,000个查询，每个查询都配有完整指定的重写版本。数据集通过手动注释收集，旨在支持多模态会话查询重写（McQR）任务，解决对话中信息省略和指代问题。此外，数据集还提供了重写中出现的实体的图像框注释，以辅助下游任务如实体指代检测。McQueen数据集的应用领域主要集中在改进多轮对话模型，通过重写查询来消除指代和省略，从而将复杂的对话模型问题简化为单轮版本。

The McQueen Dataset is a large-scale dataset jointly created by The Chinese University of Hong Kong and Alibaba Group. It contains 15,000 visual dialogues and over 80,000 queries, each paired with a fully specified rewritten version. Collected via manual annotation, it aims to support the multimodal conversational query rewriting (McQR) task, addressing the issues of information omission and reference resolution in dialogues. Additionally, the dataset provides image bounding box annotations for entities appearing in the rewritten queries to assist downstream tasks such as entity reference detection. The main application scenarios of the McQueen Dataset focus on improving multi-turn dialogue models: by rewriting queries to eliminate references and omissions, complex multi-turn dialogue modeling problems can be simplified to single-turn ones.

提供机构：

中国香港中文大学

创建时间：

2022-10-24

搜集汇总

数据集介绍

构建方式

在视觉对话领域，McQueen数据集的构建依托于VisDial数据集，从中随机选取了1.5万组视觉对话，涵盖超过8万条查询。通过雇佣16名英语母语标注员，采用系统化的人工标注流程，对每条查询进行改写，以解决指代消解和省略补全问题。标注过程分为文本改写和图像框标注两个阶段，首先提供详细指南和示例进行培训，随后进入试标注和主标注环节。为确保数据质量，实施了交叉质量检查与多轮迭代修订，最终标注者间一致性达到0.82，确保了数据的高可靠性。

使用方法

该数据集主要用于多模态对话查询改写任务的模型训练与评估。研究人员可将图像、历史对话文本及当前查询作为输入，训练模型生成完全指定的改写查询。数据集已按6:2:2的比例划分为训练、验证和测试集，支持使用BLEU、ROUGE、METEOR及精确匹配等指标进行性能评估。此外，图像框标注可用于辅助视觉指代消解等子任务，增强模型对多模态信息的理解能力。数据集的公开可用性为推进多模态对话系统的研究提供了重要资源。

背景与挑战

背景概述

在对话系统与多模态人工智能交叉研究领域，信息省略与指代消解是长期存在的核心挑战。McQueen数据集由香港中文大学与阿里巴巴集团的研究团队于2022年共同构建，旨在推进多模态对话查询改写任务的研究。该数据集基于VisDial视觉对话数据集，通过人工标注构建了包含1.5万组视觉对话与超过8万条查询改写对的大规模语料库，并创新性地为改写实体提供了图像边界框标注。McQueen的建立标志着查询改写研究从纯文本模态扩展到视觉-语言融合领域，为多模态对话理解提供了重要的基准测试平台。

当前挑战

McQueen数据集致力于解决多模态对话场景下的查询改写难题，其核心挑战在于如何准确融合视觉与文本信息以完成指代消解与省略补全。具体而言，模型需要从图像中定位被代词指代的实体，并根据视觉线索补全对话历史中未出现的省略成分。在构建过程中，标注团队面临跨模态对齐的复杂性，需确保文本改写与图像标注在语义上严格一致。此外，保持标注者间对视觉指代与省略边界判断的一致性，以及控制大规模多轮对话标注的成本与质量，均是数据集构建中需要克服的实际挑战。

常用场景

经典使用场景

在视觉对话系统中，用户常使用省略或指代性语言进行多轮交互，McQueen数据集为这一场景提供了标准化的评估基准。该数据集通过人工标注，将包含视觉信息的对话查询重写为完整且明确的表达形式，从而支持模型在理解图像内容与历史文本的基础上，精准恢复查询的语义完整性。其经典使用场景集中于多模态对话理解领域，为研究者提供了检验模型跨模态推理能力的实验平台。

解决学术问题

McQueen数据集主要解决了多模态环境下对话查询的省略恢复与指代消解问题。传统查询重写研究多局限于纯文本领域，难以应对视觉对话中实体指代需依赖图像信息的挑战。该数据集通过融合视觉与文本模态，推动了跨模态语义理解模型的发展，为多模态对话系统的核心难题——即如何基于图像与历史上下文生成完整查询——提供了切实可行的研究基础与评估标准。

实际应用

在实际应用中，McQueen数据集可显著提升智能助手、视觉问答系统及交互式机器人的对话理解能力。例如，在电商导购或医疗咨询场景中，用户常以简略方式指代图像中的商品或症状，系统需准确理解其指代对象并补全省略信息以提供精准服务。该数据集通过提供实体级别的图像框标注，进一步支持了视觉实体定位等下游任务，增强了多模态对话系统的实用性与可靠性。

数据集最近研究