ChiQA

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/benywon/ChiQA

下载链接

链接失效反馈

官方服务：

资源简介：

ChiQA是一个大规模基于图像的现实世界问答数据集，用于多模态理解。该数据集包含真实世界的问题，这些问题是开放域用户查询，发送到搜索引擎。ChiQA的图像也是从搜索引擎收集的真实世界图像，这些图像与问题相关，但不一定能回答问题。数据集通过两阶段主动学习过程进行数据众包，使得数据更具挑战性，并内在地消除对某些属性或语言模式的偏见。

ChiQA is a large-scale image-based real-world question-answering dataset designed for multimodal understanding. The dataset comprises real-world questions, which are open-domain user queries submitted to search engines. The images in ChiQA are also real-world images collected from search engines, relevant to the questions but not necessarily answering them. The dataset is crowdsourced through a two-stage active learning process, making the data more challenging and inherently eliminating biases towards certain attributes or linguistic patterns.

创建时间：

2022-08-05

原始信息汇总

数据集概述

数据集名称

ChiQA: 大规模基于图像的现实世界问答数据集，用于多模态理解。

数据集特点

真实世界问题：ChiQA中的问题为开放领域的用户查询，这些查询是用户向搜索引擎发出的真实需求，因此问题类型多样，涵盖医学、健康等多个领域，且与图像无关，更加平衡和无偏。
可答性：ChiQA中的图像也是从搜索引擎收集的真实世界图像，这些图像与问题相关，但不一定能直接回答问题。这种可答性要求对问题和上下文有深入理解。
无偏性：数据收集采用两阶段主动学习过程，首先随机从网络收集样本，然后使用第一阶段数据训练的模型选择剩余数据中的难题进行标注，这使得数据更具挑战性，并减少了数据中对某些属性或语言模式的偏见。

数据集应用

用于训练和测试基于BERT和DETR模型的问答系统，以及其他模型如BERT+ViT和ALBEF。

数据集状态

原始数据即将发布。

搜集汇总

数据集介绍

构建方式

ChiQA数据集的构建基于大规模的真实世界用户查询，这些查询来源于搜索引擎，涵盖了广泛的领域，如医疗和健康等。与传统的视觉问答数据集不同，ChiQA中的问题并非依赖于特定图像，而是独立于图像的开放域查询，确保了问题的多样性和平衡性。此外，数据集的图像也是从搜索引擎中收集的真实世界图像，这些图像与问题相关但不一定是答案的直接来源。为了确保数据集的挑战性和去偏性，ChiQA采用了两阶段的主动学习过程，首先随机收集样本，然后利用训练模型选择困难样本进行进一步标注。

特点

ChiQA数据集的主要特点在于其真实性和多样性。首先，问题来源于实际用户查询，涵盖了从事实性到非事实性的多种类型，确保了问题的广泛性和复杂性。其次，图像与问题的关系是松散的，这要求模型不仅理解问题，还要深入分析图像内容，增加了答案的难度和深度。此外，通过两阶段的主动学习过程，ChiQA有效地减少了数据中的偏见，使得模型在处理复杂和多样化的查询时更加稳健。

使用方法

使用ChiQA数据集进行训练和推理时，用户可以利用提供的脚本进行模型训练和测试。例如，可以使用BERT-DETR模型，该模型结合了预训练的语言模型BERT和先进的对象检测模型DETR，以实现跨模态表示。训练脚本如run_bert_detr.sh允许用户设置多个参数，如训练轮数、学习率和批处理大小等。此外，ChiQA还支持BERT+ViT和ALBEF等模型的训练和测试，用户可以根据需求选择合适的模型和参数进行实验。

背景与挑战

背景概述

随着搜索引擎技术的进步，用户查询的响应结果逐渐向多模态形式发展，如图像、视频等。在这一背景下，视觉问答（VQA）任务成为了多模态理解领域的重要研究方向。然而，现有的VQA数据集大多依赖于特定图像，且问题生成方式较为局限，导致模型在理解上下文和多样化问题时表现不足。为此，ChiQA数据集应运而生，由CIKM 2022会议的论文提出，旨在通过大规模的中文VQA数据集解决上述问题。ChiQA数据集包含了来自搜索引擎的真实用户查询和相关图像，这些问题与图像无关，具有更高的多样性和平衡性，能够有效提升模型的多模态理解能力。

当前挑战

ChiQA数据集的构建面临多项挑战。首先，如何从海量的搜索引擎查询中筛选出具有代表性和多样性的问题，确保数据集的广泛覆盖和平衡性，是一项复杂的工作。其次，图像与问题的关联性并非显而易见，如何在图像中找到与问题相关的信息，并确保答案的可回答性，对模型的深度理解能力提出了高要求。此外，数据集的标注过程中，如何通过两阶段的主动学习方法有效去偏，避免模型对特定属性或语言模式的偏好，也是一大挑战。这些挑战共同推动了多模态理解技术的发展，并为未来的研究提供了丰富的方向。

常用场景

经典使用场景

ChiQA数据集在多模态理解领域中具有广泛的应用，尤其是在视觉问答（VQA）任务中。该数据集通过收集真实世界中的用户查询和相关图像，提供了一个开放域的问答环境。经典的使用场景包括训练模型以理解用户查询的语义，并结合图像内容进行准确的答案生成。这种多模态的结合使得模型能够在医疗、健康等多个领域中提供更为精准和多样化的回答。

衍生相关工作

基于ChiQA数据集，研究者们已经开发了多种多模态模型，如BERT+DETR和BERT+ViT等，这些模型结合了预训练语言模型和先进的视觉处理技术，显著提升了多模态问答的性能。此外，ChiQA还启发了对多模态数据集构建和标注方法的研究，推动了多模态学习领域的进一步发展。

数据集最近研究