ProMQA

arXiv2024-10-30 更新2024-11-02 收录

下载链接：

https://github.com/kimihiroh/promqa

下载链接

链接失效反馈

官方服务：

资源简介：

ProMQA是由卡内基梅隆大学和国家先进工业科学技术研究所创建的多模态问答数据集，旨在评估系统在多模态程序活动理解中的能力。该数据集包含401对多模态程序问答对，结合了用户记录的程序活动视频及其相应的指令。数据集的创建采用了人机协作的方法，利用LLM生成问答对，并由人工进行验证，确保数据质量。ProMQA主要应用于评估和提升多模态系统在实际应用场景中的理解能力，特别是在烹饪、组装和手术等程序性活动中。

ProMQA is a multimodal question answering (QA) dataset developed by Carnegie Mellon University and the National Institute of Advanced Industrial Science and Technology, aiming to evaluate systems' capabilities in understanding multimodal procedural activities. This dataset includes 401 multimodal procedural QA pairs, combining user-recorded procedural activity videos and their corresponding instructions. The dataset was created using a human-machine collaboration approach: LLMs are used to generate QA pairs, which are then manually verified to ensure data quality. ProMQA is primarily applied to evaluate and enhance the understanding abilities of multimodal systems in real-world application scenarios, particularly in procedural activities such as cooking, assembly, and surgery.

提供机构：

卡内基梅隆大学国家先进工业科学技术研究所

创建时间：

2024-10-30

原始信息汇总

ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding

概述

ProMQA是一个用于多模态程序性活动理解的评估问答数据集。数据集包含食谱（文本）、录制视频和问题（文本），任务是预测答案（文本）。

数据集更新

2024/10/29: 新增401个问答对。

环境设置

虚拟环境

bash conda create -y -n promqa python=3.11 conda activate promqa conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia pip install -r requirements.txt

下载视频数据

使用CaptainCook4D/downloader下载录制视频。
分割原始录制视频并采样帧。

基准测试

预测

设置API密钥。
运行多模态模型进行预测。

评估

设置API密钥。
运行LLM-as-a-judge进行评估。

数据标注

数据标注界面展示。

待办事项

添加数据标注代码（预处理、问答生成、验证）。
添加其他基线的预测代码（单模态、苏格拉底、开放多模态模型）。

引用

bib @article{hasegawa-etal-2024-promqa, title={ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding}, author={Hasegawa, Kimihiro and Imrattanatrai, Wiradee and Cheng, Zhi-Qi and Asada, Masaki and Holm, Susan and Wang, Yuran and Fukuda, Ken and Mitamura, Teruko}, publisher = {arXiv}, year={2024}, url={https://arxiv.org/abs/2410.22211}, }

问题与反馈

如有问题或请求，请创建GitHub Issue。

搜集汇总

数据集介绍

构建方式

ProMQA数据集的构建采用了高效的人类-大型语言模型（LLM）协作方法。首先，利用现有的CaptainCook4D数据集中的视频和食谱，通过LLM生成问题-答案对。随后，由人类标注者对这些生成的QA对进行验证，以确保数据质量。具体而言，LLM生成的候选QA对中约有80%被保留，并经过人工补充和修正，最终形成了包含401个多模态程序性QA对的ProMQA数据集。

特点

ProMQA数据集的显著特点在于其多模态性和程序性。该数据集包含401个QA对，每个问题都需要结合视频记录和相应的指令来回答，从而评估模型在实际应用场景中的多模态理解能力。此外，数据集的构建过程中采用了人类-LLM协作方法，确保了数据的高质量和多样性，为模型评估提供了坚实的基准。

使用方法

ProMQA数据集主要用于评估模型在多模态程序性活动理解中的表现。使用该数据集时，模型需要输入烹饪指令、用户活动视频和问题，并输出自然语言的答案。通过这种方式，可以直接评估模型在下游任务中的多模态能力。数据集的基准测试结果为模型性能提供了参考，同时也揭示了当前模型与人类表现之间的显著差距，为进一步的研究和模型改进提供了方向。

背景与挑战

背景概述

ProMQA数据集由卡内基梅隆大学和日本先进工业科学技术研究所的研究团队创建，旨在评估多模态系统在程序性活动理解中的能力。该数据集包含401个多模态程序性问答对，结合了用户记录的程序性活动及其相应的指令。ProMQA的创建旨在填补现有评估方法的空白，特别是那些主要关注传统分类任务（如动作识别或时间动作分割）的方法。通过引入问答任务，ProMQA旨在更贴近实际应用场景，推动多模态理解技术的发展。

当前挑战

ProMQA数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何通过多模态信息（视频和文本）来准确回答程序性活动中的问题；二是构建过程中遇到的挑战，包括如何高效地生成和验证问答对。具体而言，生成过程中采用了人机协作的方法，利用大型语言模型（LLM）生成问答对，并通过人工验证确保质量。此外，数据集的构建还需要克服多模态信息融合的复杂性，确保问答对的准确性和实用性。

常用场景

经典使用场景

ProMQA数据集在多模态程序性活动理解中具有经典应用场景，主要用于评估系统在实际应用中的表现。通过结合用户的录制视频和相应的指令，数据集提供了一个多模态问答对，要求系统根据视频内容和指令回答问题。例如，在烹饪过程中，系统需要识别用户已经完成的步骤，并根据食谱确定下一步操作。这种场景不仅测试了系统的视觉理解能力，还评估了其对文本指令的解析和推理能力。

解决学术问题

ProMQA数据集解决了多模态系统在程序性活动理解中的常见学术研究问题。传统的评估方法主要集中在动作识别或时间动作分割等分类任务上，而ProMQA通过引入多模态问答任务，更贴近实际应用场景。这不仅推动了多模态理解技术的发展，还为研究人员提供了一个新的基准，以评估和改进模型在复杂任务中的表现。数据集的引入填补了现有评估方法的不足，为多模态系统的研究和开发提供了重要的参考。

衍生相关工作

ProMQA数据集的发布和应用催生了一系列相关研究工作。首先，研究人员基于该数据集开发了多种多模态模型，以提高系统在程序性活动理解中的表现。其次，ProMQA的评估方法被其他研究者借鉴，用于构建新的多模态问答数据集，扩展了多模态研究的应用领域。此外，数据集的生成和验证方法也为合成数据生成和多模态数据标注提供了新的思路，推动了相关技术的发展。这些衍生工作不仅丰富了多模态研究的理论基础，还促进了实际应用中的技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集