five

ChiQA

收藏
github2024-05-13 更新2024-05-31 收录
下载链接:
https://github.com/benywon/ChiQA
下载链接
链接失效反馈
官方服务:
资源简介:
ChiQA是一个大规模基于图像的现实世界问答数据集,用于多模态理解。该数据集包含真实世界的问题,这些问题是开放域用户查询,发送到搜索引擎。ChiQA的图像也是从搜索引擎收集的真实世界图像,这些图像与问题相关,但不一定能回答问题。数据集通过两阶段主动学习过程进行数据众包,使得数据更具挑战性,并内在地消除对某些属性或语言模式的偏见。

ChiQA is a large-scale image-based real-world question-answering dataset designed for multimodal understanding. The dataset comprises real-world questions, which are open-domain user queries submitted to search engines. The images in ChiQA are also real-world images collected from search engines, relevant to the questions but not necessarily answering them. The dataset is crowdsourced through a two-stage active learning process, making the data more challenging and inherently eliminating biases towards certain attributes or linguistic patterns.
创建时间:
2022-08-05
原始信息汇总

数据集概述

数据集名称

ChiQA: 大规模基于图像的现实世界问答数据集,用于多模态理解。

数据集特点

  • 真实世界问题:ChiQA中的问题为开放领域的用户查询,这些查询是用户向搜索引擎发出的真实需求,因此问题类型多样,涵盖医学、健康等多个领域,且与图像无关,更加平衡和无偏。
  • 可答性:ChiQA中的图像也是从搜索引擎收集的真实世界图像,这些图像与问题相关,但不一定能直接回答问题。这种可答性要求对问题和上下文有深入理解。
  • 无偏性:数据收集采用两阶段主动学习过程,首先随机从网络收集样本,然后使用第一阶段数据训练的模型选择剩余数据中的难题进行标注,这使得数据更具挑战性,并减少了数据中对某些属性或语言模式的偏见。

数据集应用

  • 用于训练和测试基于BERT和DETR模型的问答系统,以及其他模型如BERT+ViT和ALBEF。

数据集状态

  • 原始数据即将发布。
搜集汇总
数据集介绍
main_image_url
构建方式
ChiQA数据集的构建基于大规模的真实世界用户查询,这些查询来源于搜索引擎,涵盖了广泛的领域,如医疗和健康等。与传统的视觉问答数据集不同,ChiQA中的问题并非依赖于特定图像,而是独立于图像的开放域查询,确保了问题的多样性和平衡性。此外,数据集的图像也是从搜索引擎中收集的真实世界图像,这些图像与问题相关但不一定是答案的直接来源。为了确保数据集的挑战性和去偏性,ChiQA采用了两阶段的主动学习过程,首先随机收集样本,然后利用训练模型选择困难样本进行进一步标注。
特点
ChiQA数据集的主要特点在于其真实性和多样性。首先,问题来源于实际用户查询,涵盖了从事实性到非事实性的多种类型,确保了问题的广泛性和复杂性。其次,图像与问题的关系是松散的,这要求模型不仅理解问题,还要深入分析图像内容,增加了答案的难度和深度。此外,通过两阶段的主动学习过程,ChiQA有效地减少了数据中的偏见,使得模型在处理复杂和多样化的查询时更加稳健。
使用方法
使用ChiQA数据集进行训练和推理时,用户可以利用提供的脚本进行模型训练和测试。例如,可以使用BERT-DETR模型,该模型结合了预训练的语言模型BERT和先进的对象检测模型DETR,以实现跨模态表示。训练脚本如run_bert_detr.sh允许用户设置多个参数,如训练轮数、学习率和批处理大小等。此外,ChiQA还支持BERT+ViT和ALBEF等模型的训练和测试,用户可以根据需求选择合适的模型和参数进行实验。
背景与挑战
背景概述
随着搜索引擎技术的进步,用户查询的响应结果逐渐向多模态形式发展,如图像、视频等。在这一背景下,视觉问答(VQA)任务成为了多模态理解领域的重要研究方向。然而,现有的VQA数据集大多依赖于特定图像,且问题生成方式较为局限,导致模型在理解上下文和多样化问题时表现不足。为此,ChiQA数据集应运而生,由CIKM 2022会议的论文提出,旨在通过大规模的中文VQA数据集解决上述问题。ChiQA数据集包含了来自搜索引擎的真实用户查询和相关图像,这些问题与图像无关,具有更高的多样性和平衡性,能够有效提升模型的多模态理解能力。
当前挑战
ChiQA数据集的构建面临多项挑战。首先,如何从海量的搜索引擎查询中筛选出具有代表性和多样性的问题,确保数据集的广泛覆盖和平衡性,是一项复杂的工作。其次,图像与问题的关联性并非显而易见,如何在图像中找到与问题相关的信息,并确保答案的可回答性,对模型的深度理解能力提出了高要求。此外,数据集的标注过程中,如何通过两阶段的主动学习方法有效去偏,避免模型对特定属性或语言模式的偏好,也是一大挑战。这些挑战共同推动了多模态理解技术的发展,并为未来的研究提供了丰富的方向。
常用场景
经典使用场景
ChiQA数据集在多模态理解领域中具有广泛的应用,尤其是在视觉问答(VQA)任务中。该数据集通过收集真实世界中的用户查询和相关图像,提供了一个开放域的问答环境。经典的使用场景包括训练模型以理解用户查询的语义,并结合图像内容进行准确的答案生成。这种多模态的结合使得模型能够在医疗、健康等多个领域中提供更为精准和多样化的回答。
衍生相关工作
基于ChiQA数据集,研究者们已经开发了多种多模态模型,如BERT+DETR和BERT+ViT等,这些模型结合了预训练语言模型和先进的视觉处理技术,显著提升了多模态问答的性能。此外,ChiQA还启发了对多模态数据集构建和标注方法的研究,推动了多模态学习领域的进一步发展。
数据集最近研究
最新研究方向
随着多模态理解技术的快速发展,ChiQA数据集作为大规模中文视觉问答数据集,引领了该领域的前沿研究。其核心研究方向集中在如何通过多模态信息融合技术,提升模型对真实世界问题的理解和回答能力。ChiQA数据集的独特之处在于其问题来源于搜索引擎的真实用户查询,且问题与图像相互独立,这使得模型不仅需要理解语言的语义,还需结合图像内容进行深度推理。此外,ChiQA通过两阶段的主动学习过程,有效减少了数据偏差,提升了数据集的挑战性和公平性。这些特性使得ChiQA在医疗、健康等多个领域具有广泛的应用前景,推动了多模态问答系统在实际场景中的落地与优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作