MVCap-4M
收藏MVCap-4M 数据集概述
数据集信息
- 名称: MVCap-4M
- 语言: 英语
- 任务类别:
- 零样本分类
- 特征提取
- 数据规模: 1M<n<10M
- 配置:
- 默认配置
- 数据文件:
- 训练集: metadata.json
数据集描述
MVCap-4M 是一个大规模数据集,专为视觉-语言预训练模型的视角不变性研究设计。该数据集包含超过460万个多视角图像-文本对,涉及超过10万个对象。数据集通过整合多种3D资产和真实世界的多视角数据构建,使用视觉大型语言模型(VLLM)进行自动字幕生成,以获得语义丰富的文本描述。为确保不同视角下类别一致性,采用了类别引导提示策略。
数据文件结构
-
metadata.json: 存储每个图像样本的路径、字幕、对象ID和图像ID。 json { "path": "./views/54cadb86f3db4aa6920f673aeff0d1e3/026.png", "caption": "The rocking chair in the image is made of metal and has a green cushion on it.", "obj_id": 3177, "img_id": 317726 }
-
源多视角图像: 从三个现有3D数据集中采样。
- Objavers-80k: 存储在
/views子文件夹 - IM3D: 存储在
/im3d子文件夹 - MVImgNet: 存储在
/mvimgnet子文件夹
- Objavers-80k: 存储在
引用
如需引用该数据集,请参考以下格式: bibtex @article{Ruan2024Omniview, title={Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models}, author={{Shouwei Ruan, Yinpeng Dong, Hanqing Liu, Yao Huang, Hang Su, Xingxing Wei}}, journal={European Conference on Computer Vision (ECCV)}, year={2024} }




