POINTS1.5
收藏WePOINTS 数据集概述
简介
WePOINTS 是一个多模态模型的集合,旨在创建一个统一的框架,以适应各种模态。这些模型由微信 AI 的研究人员开发,利用了多模态模型领域的最新进展和尖端技术。
最新更新
- 2024.12.11 发布了 POINTS1.5 的技术报告。
- 2024.12.06 发布了 POINTS1.5,这是一个比 POINTS 显著增强的模型,支持双语,POINTS1.5-7B 在 OpenCompass 排行榜上排名第一。
- 2024.11.02 添加了通过困惑度过滤预训练数据的演示脚本。
- 2024.10.15 发布了 POINTS 与 Qwen2.5-7B。
- 2024.10.05 开源了 POINTS 的推理代码。
- 2024.09.07 发布了关于第一个视觉-语言模型的论文。
- 2024.05.20 发布了关于视觉-语言模型中被忽视方面的论文。
发布计划
- 即将发布 POINTS1.5 的技术报告。
- 即将发布 POINTS1.5 的预训练数据集。
- POINTS1.5 将集成到 SGLang 中。
模型库
| 模型名称 | 发布日期 | 下载链接 | 备注 |
|---|---|---|---|
| POINTS-1-5-Qwen-2-5-7B-Chat | 2024.12.06 | Hugging Face | Qwen2.5-7B |
| POINTS-Qwen-2-5-7B-Chat | 2024.10.15 | Hugging Face | Qwen2.5-7B |
| POINTS-Yi-1.5-9B-Chat | 2024.10.03 | Hugging Face | 性能强劲且策略经济 |
安装
sh git clone https://github.com/WePOINTS/WePOINTS.git cd WePOINTS pip install -e .
使用方法
提供了使用 Hugging Face 🤗 transformers 库的 POINTS1.5 的使用示例。
评估方法
使用 VLMEvalKit 评估模型的性能。
模型汤
POINTS 提出了将不同指令数据集微调的模型进行组合的方法,以增强最终模型的性能。
CATTY
CATTY 是一种将大分辨率图像分割成相同大小的小块的新策略,能够保留原始图像的宽高比。
预训练数据过滤
提供了通过困惑度过滤预训练数据的脚本。
评估结果
| 基准测试 | Qwen2-VL-7B | POINTS-7B | POINTS1.5-7B |
|---|---|---|---|
| MMBench-TEST-avg | 81.0 | 78.0 | 80.7 |
| MMStar | 60.7 | 60.9 | 61.1 |
| MMMU | 53.7 | 51.4 | 53.8 |
| MathVista | 61.4 | 63.0 | 66.4 |
| HallucinationBench | 50.4 | 45.6 | 50.0 |
| AI2D | 83.0 | 81.2 | 81.4 |
| OCRBench | 84.3 | 71.7 | 82.3 |
| MMVet | 61.8 | 47.9 | 62.2 |
| 平均值 | 67.0 | 62.5 | 67.4 |
致谢
POINTS1.5 采用了 Qwen2-VL 的 NaViT,并对 Qwen 团队表示感谢。同时感谢 Haodong Duan 在评估 POINTS1.5 中的协助。
引用
如果我们的工作对您有帮助,欢迎引用:
@article{points1.5, title={POINTS1.5: Building a Vision-Language Model towards Real World Applications}, author={Liu, Yuan and Le Tian and Xiao Zhou and Xinyu Gao and Kavio Yu and Yang Yu and Jie Zhou}, journal={Coming soon}, year={2024} }
@article{liu2024points, title={POINTS: Improving Your Vision-language Model with Affordable Strategies}, author={Liu, Yuan and Zhao, Zhongyin and Zhuang, Ziyuan and Tian, Le and Zhou, Xiao and Zhou, Jie}, journal={arXiv preprint arXiv:2409.04828}, year={2024} }
@article{liu2024rethinking, title={Rethinking Overlooked Aspects in Vision-Language Models}, author={Liu, Yuan and Tian, Le and Zhou, Xiao and Zhou, Jie}, journal={arXiv preprint arXiv:2405.11850}, year={2024} }

- 1POINTS1.5: Building a Vision-Language Model towards Real World Applications腾讯公司微信人工智能模式识别中心 · 2024年



