taiseimatsuoka/test-public
收藏Hugging Face2024-04-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/taiseimatsuoka/test-public
下载链接
链接失效反馈官方服务:
资源简介:
nanoLLaVA是一个小而强大的1B视觉-语言模型,设计用于在边缘设备上高效运行。模型的基础LLM是Quyen-SE-v0.1(Qwen1.5-0.5B),视觉编码器是google/siglip-so400m-patch14-384。模型在多个数据集上的表现评分也被列出。
nanoLLaVA是一个小而强大的1B视觉-语言模型,设计用于在边缘设备上高效运行。模型的基础LLM是Quyen-SE-v0.1(Qwen1.5-0.5B),视觉编码器是google/siglip-so400m-patch14-384。模型在多个数据集上的表现评分也被列出。
提供机构:
taiseimatsuoka
原始信息汇总
nanoLLaVA - Sub 1B Vision-Language Model
模型概述
- 名称: nanoLLaVA
- 类型: 1B 视觉语言模型
- 设计目标: 高效运行于边缘设备
- 基础LLM: Quyen-SE-v0.1 (Qwen1.5-0.5B)
- 视觉编码器: google/siglip-so400m-patch14-384
性能指标
| 模型 | VQA v2 | TextVQA | ScienceQA | POPE | MMMU (Test) | MMMU (Eval) | GQA | MM-VET |
|---|---|---|---|---|---|---|---|---|
| 得分 | 70.84 | 46.71 | 58.97 | 84.1 | 28.6 | 30.4 | 54.79 | 23.9 |
使用方法
- 安装依赖:
pip install -U transformers accelerate flash_attn - Python代码示例: 使用transformers库加载模型和标记器,处理图像并生成文本。
提示格式
- 遵循ChatML标准,但<|im_end|>后不包含
。
示例
- 图像描述: 一个小但强大的形象,可能是老鼠或老鼠玩具,手持举重杆。
- 文本内容: "Small but mighty"
- 文本与图像关联: 文本以幽默的方式描述了图像中的小但强大的角色。



