ChiQA

Name: ChiQA
Creator: 腾讯公司
Published: 2022-08-05 15:55:28
License: 暂无描述

arXiv2022-08-05 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2208.03030v1

下载链接

链接失效反馈

官方服务：

资源简介：

ChiQA是由腾讯公司创建的一个大规模基于图像的实际问题回答数据集，旨在通过多模态理解解决视觉问题回答任务。该数据集包含超过40000个真实世界用户查询和超过200000个相关图像，每个问题-图像对被标记为完全回答、部分回答或无关。ChiQA的特点在于其问题来源于开放域用户查询，图像来源于网络，且不依赖于特定图像，从而确保了问题的多样性和无偏性。数据集的创建过程涉及严格的质检和主动学习数据选择，以提高数据的质量和挑战性。ChiQA的应用领域广泛，包括但不限于医疗、教育等，旨在通过图像和语言的深度理解来解决实际问题。

ChiQA is a large-scale real-world image-based question answering dataset developed by Tencent Inc., which aims to address visual question answering (VQA) tasks through multimodal understanding. This dataset contains over 40,000 real-world user queries and more than 200,000 associated images, with each question-image pair annotated into three categories: fully answered, partially answered, or irrelevant. A key feature of ChiQA is that its questions are derived from open-domain user queries, while its images are collected from the web without relying on specific pre-defined images, thus ensuring the diversity and unbiasedness of the dataset. The dataset construction process involves strict quality inspection and active learning-based data selection to improve the overall data quality and task-relevant challenge. ChiQA has a wide range of application domains including but not limited to healthcare and education, and it is designed to solve practical problems via deep cross-modal comprehension of both images and natural language.

提供机构：

腾讯公司

创建时间：

2022-08-05

搜集汇总

数据集介绍

构建方式

在视觉问答领域，传统数据集常依赖人工生成问题，存在多样性不足与认知偏差的局限。ChiQA数据集的构建采用了一种创新方法，通过收集互联网用户的真实搜索查询作为问题来源，并结合搜索引擎获取的相关开放域图像。构建过程涵盖问题筛选、图像采集与标注三个核心环节：首先利用弱监督训练的二元分类模型从海量查询中识别出具有问答意图的问题；随后通过Google图像搜索API获取与问题相关的图像，并经过尺寸与比例过滤确保图像质量；最后采用众包标注方式，为每个问题-图像对分配三级标签（2/1/0），分别表示图像能完美回答、部分回答或无法回答问题。整个流程还引入了两阶段主动学习策略，通过模型筛选困难样本以增强数据集的挑战性与无偏性，并经过严格的质量检查确保标注一致性。

特点

ChiQA数据集在视觉与语言理解任务中展现出独特优势。其核心特征在于问题源自真实世界用户查询，覆盖医疗、教育、健康等多个开放领域，具有高度的多样性与无偏性，避免了传统数据集中常见的人工生成问题所带来的认知偏差。数据集中包含超过4万个问题与20万个问题-图像对，每个图像不仅与问题相关，更强调其可回答性，这要求模型进行细粒度的跨模态推理。此外，数据标注采用三级评分体系，区分了完美回答、部分回答与无关图像，为模型评估提供了更精细的度量标准。分析表明，ChiQA需要模型具备文本阅读、对象定位、比较推理及因果推断等多种高阶认知能力，尤其在图像中文本信息的理解方面提出了更高要求。

使用方法

ChiQA数据集主要用于评估多模态理解模型在真实场景下的视觉问答能力。研究人员可将该数据集应用于训练与测试跨模态模型，任务目标是给定用户问题及相关图像，预测图像对问题的可回答性等级。典型使用流程包括：首先对问题进行编码，同时提取图像特征；随后通过跨模态融合机制（如注意力网络）整合文本与视觉信息；最后利用分类或排序目标函数输出匹配分数。数据集支持多种评估指标，如归一化折损累计增益（NDCG）与平均精度均值（MAP），适用于衡量模型在分级标签下的排序性能。此外，ChiQA也可用于探索外部知识（如光学字符识别）对模型性能的提升，或作为预训练数据以增强模型在中文多模态任务中的泛化能力。

背景与挑战

背景概述

ChiQA数据集由腾讯公司于2018年推出，旨在解决多模态理解领域中的视觉问答问题。该数据集由Bingning Wang等研究人员构建，核心研究问题聚焦于评估图像对真实世界用户查询的应答能力，而非传统的图像描述或简单分类。ChiQA包含超过4万个问题和20万个问题-图像对，每个对标注了三级标签以指示图像的应答程度。其创新之处在于采用真实网络查询作为问题来源，并结合开放域图像，推动了视觉与语言深度融合的研究，对跨模态推理和中文信息处理领域产生了显著影响。

当前挑战

ChiQA数据集面临的挑战主要体现在两个方面：在领域问题层面，它旨在解决图像应答性评估这一复杂任务，要求模型不仅理解图像内容，还需判断其是否足以回答开放域、多样化的用户查询，这涉及细粒度的视觉推理和语言理解，如文本阅读、比较和逻辑推断。在构建过程中，挑战包括从海量网络数据中筛选有效问题、确保图像与问题的相关性、以及通过主动学习和严格质检来减少数据偏见，同时处理中文语言特有的语义多样性和图像中的文本信息提取难题。

常用场景

经典使用场景

在视觉问答领域，ChiQA数据集以其独特的图像无关性设计，为多模态理解研究提供了经典评估平台。该数据集通过引入真实世界用户查询与开放域图像配对，要求模型判断图像是否能够回答查询，从而超越了传统视觉问答任务中图像依赖的局限。这种设置促使研究者开发能够处理多样化、无偏见的自然语言问题与复杂视觉内容交互的算法，尤其在中文语境下填补了多模态数据资源的空白。

衍生相关工作

围绕ChiQA数据集，学术界衍生出一系列经典研究工作，主要集中在多模态预训练与跨模态对齐技术的优化。例如，基于ALBEF等视觉语言模型的微调与改进，研究者探索了对比学习在中文多模态任务中的适应性。同时，针对数据集中突出的文本阅读需求，相关工作整合了光学字符识别技术以增强模型对图像内嵌文本的理解。这些努力不仅提升了ChiQA基准性能，也为通用视觉语言理解模型的开发提供了重要参考。

数据集最近研究