MSC

arXiv2025-09-30 收录

下载链接：

https://github.com/wuhuikai/msc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是人类之间进行长对话的最大数据集，其中对话者要么继续讨论前一个主题，要么引入新话题。此外，之前的对话会话还标注了重要个人观点的摘要。该数据集被用于评估提升对话系统中长期记忆效果的方法，其任务包括对话生成和长期记忆评估。

This dataset is the largest available corpus of long-form multi-turn human-to-human conversations, where interlocutors either continue elaborating on the preceding conversational topic or introduce new conversational threads. Additionally, prior dialogue turns are annotated with summaries of their key personal viewpoints. This dataset is employed to evaluate methods for enhancing long-term memory performance in dialogue systems, with the associated tasks encompassing dialogue generation and long-term memory evaluation.

搜集汇总

数据集介绍

构建方式

在海洋生物信息学领域，高质量标注数据的稀缺性长期制约着计算机视觉模型的深入应用。MSC数据集的构建采用了一种创新的两阶段标注流程，旨在克服这一瓶颈。首先，研究团队从全球20个不同潜水地点采集了总计24.8小时的原始海洋视频，并依据清晰度、场景复杂性和多样性三项标准，从2743个视频中筛选出396个用于标注。第一阶段，标注人员利用基于SAM模型开发的交互式工具，对视频中的海洋目标进行像素级实例分割，生成涵盖鱼类、珊瑚礁、水生植物、沉船、潜水员及海床六大类别的精细掩码。第二阶段，为解决长视频描述笼统的问题，团队将视频依据语义连贯性切分为短片片段，并利用GPT-4.1等大型语言模型生成初始描述，再由18位领域生物学家进行人工校验与精修，最终形成与分割掩码对齐的、描述目标行为与环境的片段级文本标注，从而构建出视频-分割掩码-文本三元组的高质量数据集。

特点

MSC数据集作为首个大规模、真实场景的海洋野生动物视频数据集，其核心特征体现在多模态对齐与标注的精细度上。数据集包含了超过24.8小时的视频内容，源自多样化的海洋环境与光照条件，确保了数据的广泛代表性。其最显著的特点是提供了视频片段、像素级分割掩码以及自然语言描述三者之间的精确关联，这种三元组结构为视觉定位、视频描述生成等多任务学习提供了坚实基础。与同类数据集相比，MSC的标注粒度更为细致，它并非为整个长视频提供单一描述，而是针对语义连贯的短片片段生成包含目标属性、行为及背景信息的详细说明，极大地丰富了语义内容。此外，数据集中目标实例在数量和尺度上存在天然的不平衡性，例如鱼类数量众多但尺度小，而沉船则相反，这真实反映了海洋场景的复杂性，为模型鲁棒性评估带来了挑战。

使用方法

MSC数据集为海洋视频理解研究提供了一个多功能的基准测试平台，其使用方法主要围绕三大核心任务展开。在视频描述生成任务中，研究者可利用该数据集评估模型在视频级和片段级生成准确、详细文本描述的能力，数据集提供的精细标注可作为标准答案用于BLEU、METEOR、CIDEr等指标的定量评估。在视觉定位任务中，模型需要根据给定的文本描述，在视频序列中分割出对应的目标区域，数据集提供的掩码-文本对使得模型的空间与时间理解能力得以精确衡量。最后，在文本到视频生成任务中，高质量的片段级描述可作为提示词，驱动生成模型合成与文本语义一致的海洋场景视频，从而评估生成内容的保真度与一致性。通过访问其公开网站，研究者可获取全部数据与标注，并参照论文中的基准实验设置，推动海洋专属视觉语言模型的发展。

背景与挑战

背景概述

海洋视频理解作为计算机视觉领域的前沿分支，长期面临水下环境复杂性与生物动态多样性的双重挑战。由香港科技大学团队主导，联合多国研究机构于2024年构建的MSC数据集，标志着海洋视觉分析领域的重要突破。该数据集聚焦于海洋野生动物视频的细粒度理解，核心研究问题在于建立视频、文本与分割掩码的三元关联，以推动视觉定位与视频描述生成技术的协同发展。通过采集自13个国家、总时长24.8小时的海洋视频，并融合18位生物学家提供的片段级文本描述与20位专业人员标注的像素级分割掩码，MSC为海洋生态监测、生物行为分析及水下智能系统研发提供了首个大规模、高质量的多模态基准，显著拓展了视频理解技术在海洋科学中的应用边界。

当前挑战

MSC数据集致力于解决海洋视频理解中两大核心挑战：其一，在领域问题层面，海洋环境的动态模糊性、光照不均、水体遮挡及生物形态多样性，使得传统视觉定位与描述模型难以实现精准的对象识别与行为刻画；其二，在构建过程中，数据标注面临严峻考验，包括水下视频的语义连贯性分割、大规模海洋物种的细粒度分类，以及如何利用大语言模型生成描述时避免幻觉现象。研究团队通过设计两阶段标注流程——先由人工标注分割掩码，再结合大模型生成并经由专家修正文本描述——有效缓解了标注一致性与语义准确性的矛盾，但数据中仍存在对象尺度差异显著、类别分布不均衡等固有难题，为模型泛化能力提出了持续挑战。

常用场景

经典使用场景

在海洋生物信息学与计算机视觉交叉领域，MSC数据集为视频理解任务提供了关键基准。其经典应用场景集中于视频描述生成，特别是针对水下动态环境的片段级描述。通过整合视频、文本与分割掩码的三元组结构，该数据集支持模型学习海洋生物的行为模式与环境交互，例如鱼类觅食、珊瑚礁生态变化等复杂场景的语义捕捉。这种细粒度的标注方式使得模型能够克服水下视频中常见的模糊、遮挡与光照变化挑战，为自动化海洋监测与分析奠定基础。

解决学术问题

MSC数据集主要解决了海洋视频理解中缺乏高质量多模态标注数据的学术难题。传统视频描述数据集多集中于通用或人本领域，难以适应水下环境的动态性与物种多样性。该数据集通过提供精确的分割掩码与专家验证的片段级描述，有效缓解了大型语言模型在专业领域产生的幻觉问题，并支持视觉定位、视频描述生成等多任务学习。其意义在于推动了跨模态模型在海洋科学中的可解释性与可靠性，为生态保护与生物行为研究提供了可量化的技术基础。

衍生相关工作

围绕MSC数据集已衍生出多项经典研究工作，主要集中在多模态模型优化与领域适应方向。例如，基于其三元组数据结构的视觉定位研究改进了Grounding DINO与SAM2等模型在海洋场景中的泛化能力；在视频生成领域，该数据集的片段级描述被用于训练文本到视频模型，提升水下内容生成的逼真度与一致性。同时，数据集本身也促进了如MarineInst、CoralSCOP等海洋图像分析工作的拓展，形成了从静态图像到动态视频的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集