PACS

github2022-12-20 更新2024-05-31 收录

下载链接：

https://github.com/samuelyu2002/PACS

下载链接

链接失效反馈

官方服务：

资源简介：

PACS是一个用于物理视听常识推理的数据集。

PACS is a dataset designed for physical audiovisual commonsense reasoning.

创建时间：

2022-03-19

原始信息汇总

数据集概述

数据集名称

PACS: A Dataset for Physical Audiovisual Common-Sense Reasoning

数据集下载

直接下载链接: Google Drive
原始下载步骤: 通过运行脚本实现，具体步骤如下：

cd dataset/scripts python3 download.py -data_dir PATH_TO_DATA_STORAGE_HERE python3 preprocess.py -data_dir PATH_TO_DATA_STORAGE_HERE

基准模型性能

模型	带音频 (%)	无音频 (%)	差异 (Δ)
Fusion (I+A+V)	51.9 ± 1.1	-	-
Fusion (Q+I)	-	51.2 ± 0.8	-
Fusion (Q+A)	50.9 ± 0.6	-	-
Fusion (Q+V)	-	51.5 ± 0.9	-
Late Fusion	55.0 ± 1.1	52.5± 1.6	2.5
CLIP/AudioCLIP	60.0 ± 0.9	56.3 ± 0.7	3.7
UNITER (L)	-	60.6 ± 2.2	-
Merlot Reserve (B)	66.5 ± 1.4	64.0 ± 0.9	2.6
Merlot Reserve (L)	70.1 ± 1.0	68.4 ± 0.7	1.8
Majority	50.4	50.4	-
Human	96.3 ± 2.1	90.5 ± 3.1	5.9

引用信息

@inproceedings{yu2022pacs, title={PACS: A Dataset for Physical Audiovisual CommonSense Reasoning}, author={Yu, Samuel and Wu, Peter and Liang, Paul Pu and Salakhutdinov, Ruslan and Morency, Louis-Philippe}, booktitle={European Conference on Computer Vision}, year={2022} }

搜集汇总

数据集介绍

构建方式

PACS数据集的构建过程基于物理视听常识推理的需求，通过多模态数据的整合与处理，确保了数据的高质量和多样性。数据集的构建首先从多个来源收集了丰富的视听材料，随后通过人工标注和自动化处理相结合的方式，对数据进行了精细的标注和预处理。这一过程不仅确保了数据的准确性和一致性，还为后续的模型训练和评估提供了坚实的基础。

特点

PACS数据集的特点在于其多模态性质，涵盖了视觉、听觉以及文本等多种数据类型。数据集中的每个样本都经过精心设计，以确保其能够反映现实世界中的物理常识推理场景。此外，数据集还提供了丰富的元数据信息，如音频特征、视觉特征和文本描述，使得研究者能够从多个角度进行深入分析。这些特点使得PACS数据集在物理常识推理领域具有重要的研究价值。

使用方法

使用PACS数据集时，研究者可以通过GitHub仓库提供的详细指南进行环境配置和数据下载。数据集的使用流程包括创建Anaconda环境、安装必要的依赖库以及下载和预处理数据。此外，仓库中还提供了多个基线模型的实现代码，研究者可以根据需要选择不同的模型进行实验。通过这种方式，研究者可以快速上手并利用PACS数据集进行多模态物理常识推理的研究。

背景与挑战

背景概述

PACS数据集由Samuel Yu、Peter Wu等研究人员于2022年创建，旨在推动物理视听常识推理领域的研究。该数据集由卡内基梅隆大学和斯坦福大学的研究团队联合开发，主要关注多模态学习中的视听信息融合问题。PACS的提出填补了现有数据集在物理常识推理任务上的空白，特别是在视听信息联合推理方面。该数据集通过结合视觉、听觉和文本信息，挑战模型在复杂物理场景中的推理能力，推动了多模态学习领域的发展，并为相关研究提供了重要的基准。

当前挑战

PACS数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，物理视听常识推理任务要求模型能够同时处理视觉、听觉和文本信息，并从中提取出物理常识知识。这种多模态信息的融合与推理对模型的跨模态理解能力提出了极高的要求，尤其是在处理复杂物理场景时，模型需要具备较强的泛化能力。其次，在数据集构建过程中，研究人员面临如何有效收集和标注多模态数据的挑战。视听数据的同步采集、物理场景的真实性保证以及常识推理任务的复杂性，都增加了数据集的构建难度。此外，如何确保数据集的多样性和平衡性，避免偏差，也是构建过程中需要克服的关键问题。

常用场景

经典使用场景

PACS数据集在物理视听常识推理领域具有广泛的应用，特别是在多模态学习任务中。该数据集通过结合视觉、音频和文本信息，提供了一个综合性的平台，用于训练和评估模型在复杂物理场景中的推理能力。研究人员可以利用PACS数据集来探索多模态融合技术，提升模型在视听场景中的表现。

衍生相关工作

PACS数据集衍生了许多经典的多模态学习研究，如基于CLIP和AudioCLIP的模型融合技术。这些研究不仅提升了模型在视听推理任务中的表现，还为多模态学习领域提供了新的思路和方法。此外，PACS数据集还推动了如UNITER和Merlot Reserve等先进模型的发展，进一步拓展了多模态学习的应用范围。

数据集最近研究