SuperCLEVR-Physics
收藏SuperCLEVR Physics 数据集概述
数据集描述
SuperCLEVR Physics 是一个用于视频问答的动态3D场景理解数据集。该数据集包含以下类型的标注信息:
- 静态属性:形状(shape)、颜色(color)。
- 动态3D属性:3D位置(3D position)、速度(velocities)、外力(external forces)。
- 物理属性:质量(mass)、摩擦(frictions)、恢复系数(restitution);以及碰撞事件(objects involved, frame)。
相关工作
- SuperCLEVR:一个用于领域鲁棒性的视觉问答(VQA)数据集,涉及四个因素:视觉复杂性、问题冗余性、概念分布、概念组合性。
- SuperCLEVR-3D:一个用于3D感知场景理解的VQA数据集,包括3D姿态、部件和遮挡。
视频问答
数据集设计了关于物体动态属性和碰撞事件的问题,包括以下类型:
- 事实性问题(factual question)
- 预测性问题(predictive question)
- 反事实问题(counterfactual question)
数据生成
环境设置
-
Python版本:3.10
-
依赖安装:基于Kubric项目,使用以下命令安装依赖: bash pip install -r requirements.txt
-
bpy安装:用于Blender软件的Python包,使用以下命令安装: bash pip install bpy==3.5
视频渲染
通过运行以下脚本生成新场景和视频渲染: bash bash run.sh
示例生成100个视频: bash time="$(date +%Y-%m-%d_%H-%M-%S)" for num in {0..100} do CUDA_VISIBLE_DEVICES=xx python sim_render_color_defined_load_scene.py --data_dir=assets --job-dir=output/superclevr-physics --scratch_dir=output/tmp/tmp-$time --camera=fixed --height=realistic --iteration=$num --scene_size 5 done
输出文件夹结构示例:
output/superclevr-physics └───super_clevr_0 │ └───events.json | └───metadata.json | └───rgba_00000.png | └───rgba_00001.png | └───... | └───rgba_00120.png └───super_clevr_1 │ └───events.json | └───metadata.json | └───rgba_00000.png | └───rgba_00001.png | └───... | └───rgba_00120.png
引用
@article{wang2024compositional, title={Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering}, author={Wang, Xingrui and Ma, Wufei and Wang, Angtian and Chen, Shuo and Kortylewski, Adam and Yuille, Alan}, journal={arXiv preprint arXiv:2406.00622}, year={2024} }




