面向通用视觉的跨模态暗知识库

Name: 面向通用视觉的跨模态暗知识库
Creator: 清华大学
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=69496b13195d260cb0b916c5&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

面向通用视觉的跨模态暗知识库” 是一份为支撑通用视觉研究而构建的项目成果数据集，主要面向通用视觉领域的暗知识探索需求建设。该知识库资源的产生方法是基于2018年至2025年期间公开发布的先进模型进行构建。项目团队于2024年至2025年期间完成了这些模型的采集与加工。知识库的主要内容是15个主流模型或编码器所包含的暗知识。在体量方面，数据集共分为17个子文件夹，提供了暗知识提取、融合与更新的相关脚本，示例数据集以及暗知识库。具体内容涵盖了从基础文本理解到复杂多模态对话的多个领域，例如：文本理解： BERT-BASE-UNCASED 图像分割： SAM-1 视频超分辨率： RealBasciVSR 视频动作识别： R(2+1)D 视频-文本模型： CLIP-V 、CLIP-3D 视频特征编码器： InternVideo2.0encoder 对话大模型： VideoChat-7B、VideoChat-14B 、InternVideo2.5 、InternVL-2.5-78B 、MiniCPM-V-2.6 、OpenChat-3.5、OpenChat-3.6 模型组合框架： ModelCompose

提供机构：

清华大学