MSC
收藏arXiv2025-08-06 更新2025-08-08 收录
下载链接:
https://doi.org/10.48550/arXiv.2508.04549
下载链接
链接失效反馈官方服务:
资源简介:
MSC数据集是一个包含海洋野生动物视频、分割掩码和字幕的大规模数据集,旨在解决海洋视频理解和分析的难题。数据集由来自三个大洲的38位领域专家从真实世界的海洋视频中注释了396个高质量的视频-文本分割掩码三元组。视频内容覆盖了24.8小时的海洋视频,分辨率为4K Ultra HD,帧率为30 fps。数据集的创建过程包括视频过滤、视频标注和统计分析。MSC数据集的应用领域包括视频字幕、情节/剪辑级字幕、视频生成和视觉定位。数据集旨在解决海洋环境中动态海洋物体、相机运动和复杂水下场景带来的视频理解挑战。
The MSC dataset is a large-scale dataset encompassing marine wildlife videos, segmentation masks, and captions, which is developed to address the critical challenges in marine video understanding and analysis. A total of 396 high-quality video-text-segmentation mask triplets were annotated by 38 domain experts across three continents from real-world marine videos. The covered marine videos have a total duration of 24.8 hours, with a resolution of 4K Ultra HD and a frame rate of 30 fps. The creation pipeline of the MSC dataset includes video filtering, video annotation, and statistical analysis. Potential application scenarios of the dataset cover video captioning, episode/clip-level captioning, video generation, and visual grounding. This dataset is designed to tackle the video understanding challenges posed by dynamic marine objects, camera motions, and complex underwater scenarios in marine environments.
提供机构:
香港科技大学
创建时间:
2025-08-06
原始信息汇总
数据集概述:MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
基本信息
- 标题: MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
- DOI: 10.48550/arXiv.2508.04549
- 提交日期: 2025年8月6日
- 作者: Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
- 发布会议: ACMMM2025 (Dataset track)
数据集描述
- 领域: 计算机视觉与模式识别 (cs.CV)、人工智能 (cs.AI)、多媒体 (cs.MM)
- 摘要:
- 海洋视频因海洋对象及环境的动态性、摄像机运动和复杂的水下场景,对视频理解提出了显著挑战。
- 现有视频字幕数据集通常针对通用或人类中心领域,难以推广到复杂的海洋环境。
- 提出了一个两阶段的海洋对象导向视频字幕生成流程。
- 引入了一个综合视频理解基准,利用视频、文本和分割掩码的三元组,促进视觉定位和字幕生成。
- 强调了视频分割在检测场景变化中的显著对象转换的有效性,丰富了字幕内容的语义。
相关资源
- 数据集与代码发布地址: https://doi.org/10.1145/3746027.3758198
- 论文PDF: 查看PDF
搜集汇总
数据集介绍

构建方式
MSC数据集的构建采用了严谨的两阶段标注流程,充分融合了人工智能技术与领域专家知识。第一阶段通过自主研发的网页标注工具,基于SAM模型生成初始分割掩膜后,由来自13个国家的38位领域专家进行精细化标注,确保六类海洋生物目标的像素级识别精度。第二阶段创新性地结合大语言模型生成与专家校验机制:首先利用GPT-4.1等先进模型对分割后的视频片段生成初始描述,再由18位海洋生物学家从行为模式、环境特征等维度进行语义增强与事实校验,最终形成包含396个4K超高清视频的三元组数据集(视频-文本-分割掩膜),总时长达到24.8小时。
特点
作为当前规模最大的真实海洋场景数据集,MSC展现出三大核心特征:其一,多模态耦合性,同步提供视觉内容、结构化文本描述及像素级标注的三元组数据,为跨模态学习提供坚实基础;其二,时空细粒度,通过视频分帧策略将长视频分解为语义连贯的短视频片段(平均32.8秒),并配备独立描述文本,有效捕捉海洋生物的动态行为特征;其三,生态多样性,覆盖20个潜水地点的71次考察记录,包含珊瑚礁、沉船等复杂水下场景,且特别关注光照条件、目标尺度不平衡等现实挑战,其中鱼类标注实例超2000个但平均仅占图像面积0.67%,真实反映海洋观测的复杂性。
使用方法
该数据集支持多维度的海洋视频理解任务:在视频描述生成任务中,研究者可利用clip-level标注训练时序感知的视觉语言模型,通过BLEU/SPICE等指标评估模型对海洋生物行为的描述准确性;在视觉定位任务中,结合分割掩膜与文本描述可开发开放词汇的指代表达分割模型,使用mIoU指标衡量空间定位精度;在文本生成视频任务中,细粒度的场景描述为扩散模型提供高质量训练数据,通过CLIP-T和FVD等指标评估生成视频的语义一致性与视觉保真度。数据集采用分层存储结构,包含原始视频、逐帧图像、分割标注及分级描述文件,支持端到端流水线开发。
背景与挑战
背景概述
MSC(A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning)是由香港科技大学、印度洋基金会巴厘岛分会、迪肯大学和胡志明市科技大学等机构的研究团队于2024年提出的首个大规模海洋野生动物视频数据集。该数据集包含396个高质量的视频-文本-分割掩码三元组,覆盖13个国家的20个潜水地点,总时长24.8小时,视频分辨率为4K Ultra HD。MSC的核心研究问题是通过视觉定位和剪辑级字幕生成,提升对海洋视频的理解与分析能力,填补了现有视频字幕数据集在海洋环境复杂性方面的不足。该数据集不仅为海洋生物学研究提供了宝贵资源,还在计算机视觉领域推动了多任务学习与视频生成技术的发展。
当前挑战
MSC数据集面临的主要挑战包括:1) 领域问题的挑战:海洋视频中的动态对象(如鱼类、珊瑚)和复杂水下环境(如光照变化、相机运动)导致传统视觉定位模型(如Grounding DINO)依赖预定义类别(如COCO数据集),难以泛化至海洋物种的多样性;2) 构建过程的挑战:数据标注需结合领域专家知识,例如由18名生物学家验证合成字幕(来自GPT-4.1等模型)以避免幻觉问题,同时通过两阶段标注流程(分割掩码生成与剪辑级字幕细化)确保数据质量。此外,数据集中对象尺度与数量不平衡(如鱼类占比高但面积小,沉船稀少但面积大)进一步增加了模型训练的难度。
常用场景
经典使用场景
MSC数据集作为首个大规模海洋野生动物视频数据集,其经典使用场景主要集中在海洋生物行为分析、水下场景理解以及多模态学习任务中。通过视频-文本-分割掩码的三元组结构,该数据集为研究者提供了丰富的标注信息,能够支持复杂的视觉定位和视频描述生成任务。在海洋生物学研究中,MSC被广泛用于分析鱼类群游行为、珊瑚礁生态互动以及潜水员与海洋环境的交互,为理解海洋生态系统的动态变化提供了重要数据支持。
解决学术问题
MSC数据集有效解决了海洋视频理解领域的多个关键学术问题。首先,它填补了现有视频描述数据集中在海洋环境下的空白,克服了通用数据集在复杂水下场景中泛化能力不足的缺陷。其次,通过引入细粒度的片段级标注,该数据集显著提升了视频描述生成的语义丰富性,为多模态学习提供了高质量的基础数据。此外,MSC还解决了视觉定位模型在海洋物种识别中的局限性,通过提供精确的分割掩码和专家验证的文本描述,为开发面向海洋领域的专用模型奠定了基础。
衍生相关工作
MSC数据集已衍生出多个经典研究工作。在视觉定位领域,研究者基于该数据集开发了专门针对海洋场景的改进模型,如VideoGLaMM和GLaMM+SAM2的组合架构。在视频生成方面,MSC为文本到视频生成模型提供了高质量的海洋场景训练数据,推动了如Latte和Kling 1.5等模型在特定领域的性能提升。此外,该数据集还促进了多模态学习算法的发展,特别是在视频描述生成与视觉定位的联合任务上,为后续研究设立了新的基准。
以上内容由遇见数据集搜集并总结生成



