five

taiseimatsuoka/test-public

收藏
Hugging Face2024-04-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/taiseimatsuoka/test-public
下载链接
链接失效反馈
官方服务:
资源简介:
nanoLLaVA是一个小而强大的1B视觉-语言模型,设计用于在边缘设备上高效运行。模型的基础LLM是Quyen-SE-v0.1(Qwen1.5-0.5B),视觉编码器是google/siglip-so400m-patch14-384。模型在多个数据集上的表现评分也被列出。

nanoLLaVA是一个小而强大的1B视觉-语言模型,设计用于在边缘设备上高效运行。模型的基础LLM是Quyen-SE-v0.1(Qwen1.5-0.5B),视觉编码器是google/siglip-so400m-patch14-384。模型在多个数据集上的表现评分也被列出。
提供机构:
taiseimatsuoka
原始信息汇总

nanoLLaVA - Sub 1B Vision-Language Model

模型概述

  • 名称: nanoLLaVA
  • 类型: 1B 视觉语言模型
  • 设计目标: 高效运行于边缘设备
  • 基础LLM: Quyen-SE-v0.1 (Qwen1.5-0.5B)
  • 视觉编码器: google/siglip-so400m-patch14-384

性能指标

模型 VQA v2 TextVQA ScienceQA POPE MMMU (Test) MMMU (Eval) GQA MM-VET
得分 70.84 46.71 58.97 84.1 28.6 30.4 54.79 23.9

使用方法

  • 安装依赖: pip install -U transformers accelerate flash_attn
  • Python代码示例: 使用transformers库加载模型和标记器,处理图像并生成文本。

提示格式

  • 遵循ChatML标准,但<|im_end|>后不包含

示例

  • 图像描述: 一个小但强大的形象,可能是老鼠或老鼠玩具,手持举重杆。
  • 文本内容: "Small but mighty"
  • 文本与图像关联: 文本以幽默的方式描述了图像中的小但强大的角色。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作