BabyVLM-V2

Name: BabyVLM-V2
Creator: 波士顿大学, 索尼集团公司
Published: 2025-12-12 02:57:05
License: 暂无描述

arXiv2025-12-12 更新2025-12-13 收录

下载链接：

https://shawnking98.github.io/BabyVLM-v2/

下载链接

链接失效反馈

官方服务：

资源简介：

BabyVLM-V2是由波士顿大学和索尼集团公司联合开发的婴儿启发的视觉语言建模框架，旨在通过发展心理学原理进行样本高效的预训练。该数据集包含768,000条图像-话语对，以及181,000条视频-话语对和63,000条交错序列，数据来源于SAYCam的婴儿中心视角的纵向视听语料库。数据集创建过程最大限度地减少了人工干预，以保持儿童感官摄入的真实性。BabyVLM-V2的应用领域主要集中在发展合理的视觉基础模型预训练，旨在解决早期儿童感知能力的模拟和评估问题。

BabyVLM-V2 is a baby-inspired visual-language modeling framework co-developed by Boston University and Sony Group Corporation, which aims to conduct sample-efficient pre-training based on developmental psychology principles. This dataset contains 768,000 image-utterance pairs, 181,000 video-utterance pairs and 63,000 interleaved sequences, sourced from the longitudinal audio-visual corpus with infant-centered perspectives from SAYCam. The dataset creation process minimizes human intervention to preserve the authenticity of children's sensory inputs. The main application scenarios of BabyVLM-V2 focus on pre-training for developing valid visual foundation models, aiming to solve the problems of simulating and evaluating early childhood perceptual abilities.

提供机构：

波士顿大学, 索尼集团公司

创建时间：

2025-12-12

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，构建符合儿童发展轨迹的数据集对于探索样本高效预训练具有重要意义。BabyVLM-V2数据集的构建基于SAYCam纵向婴儿中心视听语料库，通过最小化人工干预来最大化数据覆盖范围。具体而言，研究团队将包含语音的视频片段全部纳入预训练分割，并基于转录边界将录像分割为短片段，形成视频-话语对。通过计算视频-话语相似度并设定阈值筛选，最终保留了约18.1万个视频片段。同时，以每秒1帧的速率从视频-话语对中采样图像，通过CLIP相似度筛选获得76.8万个图像-话语对。此外，还通过滑动窗口构建了6.3万个交错文本与图像序列，模拟多轮对话场景。这种多格式混合的构建方式确保了数据能够全面反映婴儿的感官体验。

特点

该数据集的核心特点在于其发展合理性与多模态多样性。数据集严格遵循儿童发展心理学原则，所有数据均源自6至32个月婴儿的自我中心视角录像，真实模拟了早期儿童的视觉摄入环境。数据格式涵盖视频-话语对、图像-话语对以及交错的多轮对话序列，这种结构多样性为模型处理不同下游任务提供了坚实基础。特别值得注意的是，数据集与NIH Baby Toolbox®认知评估工具深度对接，通过DevCV工具箱将十项视觉相关测量转化为多模态任务，覆盖空间推理、记忆和词汇理解等关键认知领域。这种设计使得数据集不仅能够支持模型预训练，还能提供与儿童发展能力对齐的标准化评估基准。

使用方法

该数据集的使用遵循分层递进的训练范式。研究团队设计了四阶段训练流程：首先进行单模态训练，语言骨干网络通过自回归损失在转录话语上训练，视觉骨干网络采用DINOv2目标在SAYCam帧上训练。随后进入特征对齐阶段，冻结视觉和语言骨干网络，仅优化多层感知机连接器，将视觉特征映射到语言嵌入空间。第三阶段进行联合预训练，在冻结视觉骨干的同时，使用完整混合格式数据集联合训练连接器和语言骨干。最后进行指令微调，使用混合指令数据集微调整个模型，使其能够通过自然语言提示执行各种下游任务。这种训练方法确保了模型能够逐步掌握多模态理解能力，并在发展合理的认知任务上达到竞争性性能。

背景与挑战

背景概述

BabyVLM-V2数据集由波士顿大学与索尼集团的研究团队于2025年提出，旨在构建一个基于儿童早期发展轨迹的视觉语言模型预训练与评估框架。该数据集的核心研究问题在于探索如何利用婴幼儿有限的感官输入数据，以样本高效的方式预训练视觉基础模型，并建立与儿童认知发展水平相匹配的评估基准。通过整合SAYCam纵向婴儿中心视听语料库，该数据集提供了视频-话语、图像-话语及多轮对话三种数据格式，模拟了婴幼儿的真实感知经验。其创新性在于首次将美国国立卫生研究院（NIH）最新发布的婴儿工具箱中的视觉相关测量全面转化为多模态认知任务基准，涵盖了空间推理、记忆与词汇理解等关键认知领域，为发展心理学与人工智能的交叉研究提供了标准化实验平台。

当前挑战

BabyVLM-V2面临的挑战主要体现在两个方面：在领域问题层面，该数据集致力于解决婴幼儿视角下的视觉语言理解这一复杂问题，其核心挑战在于如何让模型仅通过有限的、与儿童感知对齐的感官数据，习得与婴幼儿相当的认知能力，包括处理自然场景中的物体识别、空间关系推理、数量比较及跨时间记忆等任务。在构建过程中，研究团队需克服数据采集与处理的显著困难：SAYCam语料库虽提供了婴儿中心的纵向视听记录，但其中包含大量运动模糊、视角受限及语音-视觉错位的噪声数据；同时，将NIH婴儿工具箱的临床测量转化为适合模型评估的计算任务时，需在保持发展心理学效度的前提下，解决卡通刺激与自然图像的领域差异、人类测试范式到多模态模型接口的转换，以及任务样例稀缺下的数据扩充等问题。

常用场景

经典使用场景

在视觉语言模型研究领域，BabyVLM-V2数据集为探索发展启发的预训练范式提供了经典实验平台。该数据集通过整合SAYCam婴儿中心化视听语料库，构建了视频-话语、图像-话语及多轮对话三种数据格式，模拟了婴幼儿从6到32个月龄的感知经验。研究者利用这一数据集训练紧凑型视觉语言模型，评估其在空间推理、记忆和词汇理解等认知任务上的表现，为样本高效的预训练方法提供了实证基础。

实际应用

在实际应用层面，BabyVLM-V2数据集为儿童发展研究和教育技术开发提供了重要工具。临床工作者可借助基于该数据集训练的模型，辅助评估婴幼儿的神经发育状况；教育科技公司能够利用其开发更符合儿童认知特点的交互系统。该数据集还促进了公众对人工智能系统的理解与信任，为开发安全可靠的儿童导向AI应用奠定了数据基础。

衍生相关工作

BabyVLM-V2数据集催生了多个重要研究方向。在基准测试方面，DevCV工具箱启发了更多发展合理的评估体系构建；在模型架构上，其支持多图像输入和多轮对话的BabyLLaVA-V2设计影响了紧凑型视觉语言模型的开发范式。该数据集还与Ego4D等成人视角数据集形成对比研究，深化了人们对不同感知视角下模型泛化能力的理解，推动了跨领域认知计算研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集