PACS
收藏arXiv2025-09-30 收录
下载链接:
https://domaingeneralization.github.io/#data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含七个类别的图像分类数据集,它涵盖了来自四个不同领域的图像:照片(P)、艺术(A)、卡通(C)和素描(S)。尽管每个领域的类别空间相同,但本次实验使用了具有不同类别空间的开放领域PACS数据集。任务是对这些图像进行分类。
This dataset is an image classification task dataset encompassing seven categories, covering images from four distinct domains: photography (P), art (A), cartoon (C), and sketch (S). Although the category spaces of each domain are identical, the open-domain PACS dataset with different category spaces was employed in this experiment. The task is to classify these images.
搜集汇总
数据集介绍

构建方式
在物理常识推理领域,构建多模态数据集需兼顾视觉与听觉信息的协同表征。PACS数据集的构建遵循系统化流程,首先从YouTube平台采集面向物体的ASMR视频,通过镜头边界检测与音频分类器筛选出无背景音乐或对话的5-10秒片段。随后,标注人员对视频片段进行材料分类与边界框标注,仅保留需多模态信息才能理解物理属性的复杂物体。最终,通过问题创建、问题重分配与质量检查三个阶段,生成涵盖1,377个独特问题的13,400个问答对,确保数据兼具多样性与逻辑严谨性。
特点
PACS数据集的核心特点在于其首创的视听双模态物理常识推理架构。该数据集包含1,526个物体视频,每个视频均配备高质量音频与物体边界框,形成多模态三元组表征。问题设计涵盖直观物理与常识推理两大范畴,涉及硬度、形状、柔韧性等23类物理属性,避免直接询问属性而强调场景化推理。数据分布经过精心平衡,物体材料覆盖塑料、金属、玻璃等10大类,且通过问题重分配机制构建非常规物体-问题匹配,有效削弱模型对先验知识的依赖,凸显多模态融合的必要性。
使用方法
PACS数据集适用于训练与评估多模态物理常识推理模型。使用时,模型需同时处理问题文本、物体视频、对应音频及边界框信息,执行二分类问答任务。基准评估包含五大模块:人类性能测试确立95%的准确率上限;偏置检测模型验证数据无模态主导倾向;融合CLIP、UNITER等先进模型进行性能对比;消融实验量化音频模态的贡献度;增设材料分类子任务区分感知与推理误差。研究者可通过官方代码库获取标准化数据分割与评估脚本,并借鉴其提出的多模态融合策略与细粒度时间对齐方法优化模型设计。
背景与挑战
背景概述
物理视听常识推理数据集PACS由卡内基梅隆大学与加州大学伯克利分校的研究团队于2022年联合创建,旨在推动人工智能在真实物理世界中的多模态推理能力。该数据集聚焦于物理常识推理这一核心研究问题,即理解物体的物理属性、可操作性及其交互关系。通过整合视觉与听觉模态,PACS填补了现有研究在跨模态物理推理方面的空白,为构建安全、鲁棒的AI系统提供了关键基准。其包含13,400个问答对、1,526个视频及1,377个独特问题,显著拓展了多模态学习与常识推理的研究边界,对机器人学、场景理解及人机交互等领域产生了深远影响。
当前挑战
PACS数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,物理常识推理本身具有高度复杂性,要求模型超越表层特征识别,深入理解物体的材料属性、力学特性及交互动态,而现有模型在跨模态信息融合与高阶推理方面仍存在显著不足,导致其性能远低于人类水平。其二,在构建过程中,研究团队需克服多模态数据对齐、高质量样本筛选以及标注一致性等难题,例如通过设计精细的过滤流程确保视频中物体的物理属性难以仅凭单模态信息判断,并采用多轮人工校验机制以维持问答对的逻辑严谨性与多样性。
常用场景
经典使用场景
在物理常识推理研究领域,PACS数据集被广泛用于评估多模态模型在结合视听信息进行物理属性推断方面的能力。该数据集通过呈现包含人类与物体交互的视频片段及对应音频,要求模型回答涉及物体物理特性的二元选择题,经典使用场景包括测试模型对材料硬度、柔韧性、重量等属性的跨模态理解。研究者常利用PACS探索模型如何整合视觉外观与声音线索,以解决仅凭单一模态难以区分的物理推理问题,例如区分外观相似但材质不同的物体。
实际应用
在实际应用层面,PACS数据集为开发需物理常识的智能系统提供了训练与评估基础。例如,在家庭服务机器人领域,系统可利用类似PACS的多模态数据学习物体属性,以安全操作易碎或重型物品。在工业质检中,结合视听信号的模型可更准确识别材料缺陷或结构异常。此外,该数据集支持的物理推理能力可用于教育辅助系统,帮助模拟物体交互实验,或用于虚拟现实环境中的物理行为预测,提升沉浸体验的真实性。
衍生相关工作
PACS数据集催生了一系列围绕多模态物理推理的延伸研究。基于其构建的PACS-material子任务专门评估材料分类性能,揭示了物理推理与简单分类任务间的难度差距。相关工作扩展了视听融合方法,如改进的AudioCLIP变体及更精细的时序建模技术,以提升对物体动态交互的理解。此外,该数据集启发了对模型偏差的深入分析,探讨了语言、视觉与音频模态中的潜在偏见,并促进了如Merlot Reserve等先进多模态架构在物理推理场景下的适配与优化。
以上内容由遇见数据集搜集并总结生成



