five

面向通用视觉的跨模态暗知识库

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69496b13195d260cb0b916c5&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
面向通用视觉的跨模态暗知识库” 是一份为支撑通用视觉研究而构建的项目成果数据集 ,主要面向通用视觉领域的暗知识探索需求建设 。 该知识库资源的产生方法是基于2018年至2025年期间公开发布的先进模型进行构建 。项目团队于2024年至2025年期间完成了这些模型的采集与加工 。 知识库的主要内容是15个主流模型或编码器所包含的暗知识 。在体量方面,数据集共分为17个子文件夹 ,提供了暗知识提取、融合与更新的相关脚本,示例数据集以及暗知识库。 具体内容涵盖了从基础文本理解到复杂多模态对话的多个领域,例如: 文本理解: BERT-BASE-UNCASED 图像分割: SAM-1 视频超分辨率: RealBasciVSR 视频动作识别: R(2+1)D 视频-文本模型: CLIP-V 、CLIP-3D 视频特征编码器: InternVideo2.0encoder 对话大模型: VideoChat-7B、VideoChat-14B 、InternVideo2.5 、InternVL-2.5-78B 、MiniCPM-V-2.6 、OpenChat-3.5、OpenChat-3.6 模型组合框架: ModelCompose
提供机构:
清华大学
二维码
社区交流群
二维码
科研交流群
商业服务