SciVid

github2025-07-08 更新2025-07-10 收录

下载链接：

https://github.com/google-deepmind/scivid

下载链接

链接失效反馈

官方服务：

资源简介：

SciVid包含五个科学视频任务，涵盖了医学计算机视觉、动物行为理解和天气预报等多个科学领域，结合了已建立和未充分探索的任务，涵盖了不同的数据分布和训练机制。

SciVid encompasses five scientific video tasks across a variety of domains including medical computer vision, animal behavior understanding, and weather forecasting. It integrates both established and underexplored tasks, covering diverse data distributions and training mechanisms.

创建时间：

2025-07-04

原始信息汇总

SciVid数据集概述

数据集简介

SciVid是一个用于评估视频基础模型（ViFMs）在多个科学领域表现的综合性基准测试。该数据集由Google DeepMind发布，包含五个科学视频任务，涵盖医学计算机视觉、动物行为理解和天气预报等领域。

数据集组成

1. FlyVsFly

领域：果蝇行为
任务：分类
训练样本数：1M
来源：https://link.springer.com/chapter/10.1007/978-3-319-10605-2_50

2. CalMS21

领域：小鼠行为
任务：分类
训练样本数：27K
来源：https://arxiv.org/abs/2104.02710

3. WeatherBench 2

领域：天气
任务：预测
训练样本数：57K
来源：https://arxiv.org/abs/2308.15560

4. Digital Typhoon

领域：台风卫星图像
任务：中心气压预测
训练样本数：696
来源：https://arxiv.org/abs/2311.02665

5. STIR

领域：手术组织
任务：点跟踪
训练样本数：N/A
来源：https://arxiv.org/abs/2309.16782

评估方法

每个模型附加任务特定的读出器
可选择冻结或微调主干网络
评估流程包括训练轻量级读出器

数据获取

主数据源：https://storage.googleapis.com/scivid
推荐存储在本地SSD驱动器上
替代方案：使用gcsfuse挂载数据

使用要求

CUDA 12.4
Python 3.10
推荐环境配置：
- CUDA_VISIBLE_DEVICES=0
- XLA_PYTHON_CLIENT_MEM_FRACTION=.5
- TF_GPU_ALLOCATOR=cuda_malloc_async

引用信息

主论文引用：

@inproceedings{hasson2025scivid, title={SCIVID: Cross-Domain Evaluation of Video Models in Scientific Applications}, author={Hasson, Yana and Luc, Pauline and Momeni, Liliane and Ovsjanikov, Maks and Le Moing, Guillaume and Kuznetsova, Alina and Ktena, Ira and Sun, Jennifer J. and Koppula, Skanda and Gokay, Dilara and Heyward, Joseph and Pot, Etienne and Zisserman, Andrew}, year={2025}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, }

许可证

软件：Apache License 2.0
其他材料：Creative Commons Attribution 4.0 International License (CC-BY)

搜集汇总

数据集介绍

构建方式

SciVid数据集通过整合多个科学领域的视频任务构建而成，涵盖了医学计算机视觉、动物行为理解和天气预报等多样化领域。其构建过程涉及对原始数据的筛选、降采样和预处理，确保数据质量和一致性。例如，Fly-vs-Fly数据集经过Task Programming方法过滤，CalMS21数据集则进行了降采样并划分了固定的训练集和验证集。此外，数据集还通过标准化和归一化技术处理了部分任务的数据格式，以适应不同模型的需求。

特点

SciVid数据集的特点在于其跨领域的多样性和任务覆盖的广泛性。它包含了五个科学视频任务，涵盖了分类、预测和点跟踪等多种任务类型。数据集的样本数量从数百到百万级别不等，充分体现了不同科学领域的数据分布特点。每个任务的数据均经过精心处理，确保了数据的代表性和可用性。此外，数据集还提供了丰富的元数据和标注信息，为模型评估和迁移学习提供了坚实的基础。

使用方法

SciVid数据集的使用方法较为灵活，支持多种视频基础模型的评估和微调。用户可以通过GitHub仓库提供的脚本下载数据，并按照指南配置环境。数据集支持在冻结主干网络或微调主干网络的两种模式下进行任务特定读出的训练。例如，用户可以使用Hugging Face的VideoMAE-B主干网络，通过提供的配置文件快速启动训练。此外，数据集还提供了Colab演示，方便用户直观了解数据结构和模型预测效果。

背景与挑战

背景概述

SciVid数据集由Google DeepMind团队于2025年推出，旨在构建一个跨学科科学视频理解基准测试平台。该数据集整合了来自生物行为学、气象学和医学影像学等领域的五个子任务，包括果蝇行为分类、小鼠社交互动分析、台风中心压力预测等前沿研究方向。通过融合FlyVsFly、CalMS21等经典数据集，SciVid为视频基础模型（ViFMs）的跨领域迁移学习提供了标准化评估框架，其创新性体现在首次系统性地建立了科学视频多任务评估体系，推动了计算机视觉在科研领域的深度应用。

当前挑战

SciVid面临的核心挑战主要体现在领域适应性与数据异构性两方面。在领域问题层面，不同科学任务间存在显著的特征分布差异，如果蝇行为分析的微观运动模式与台风卫星影像的宏观气象特征具有截然不同的时空表征需求。构建过程中的技术挑战包括：多源数据标准化处理的复杂性，如医学手术视频的隐私脱敏与气象数据的时空对齐；样本量级的不均衡问题，其中数字台风数据集仅含696个训练样本；以及跨模态标签体系的统一，需协调行为分类、关键点追踪等异构标注标准。

常用场景

经典使用场景

SciVid数据集作为跨领域视频基础模型（ViFMs）的评估基准，在医学计算机视觉、动物行为理解和天气预报等多个科学领域中展现出其独特价值。通过整合FlyVsFly、CalMS21、WeatherBench 2等多样化任务，该数据集为研究者提供了一个统一的平台，用于测试模型在不同数据分布和训练机制下的泛化能力。其经典使用场景包括视频分类、行为预测及气象预报等任务，尤其在多模态数据融合和跨领域迁移学习方面表现突出。

衍生相关工作

围绕SciVid衍生的经典工作包括VideoMAE等视频自监督学习架构的跨领域适应性研究，以及基于Kauldron框架的轻量化任务解码器设计。数据集中的FlyVsFly子集催生了行为识别中的时序注意力机制改进，WeatherBench 2则促进了气象预测中物理约束与神经网络的结合。相关成果发表在CVPR、NeurIPS等顶级会议，形成了视频理解与科学计算交叉创新的研究脉络。

数据集最近研究