five

POINTS1.5

收藏
arXiv2024-12-11 更新2024-12-13 收录
下载链接:
https://github.com/WePOINTS/WePOINTS
下载链接
链接失效反馈
官方服务:
资源简介:
POINTS1.5是由腾讯公司微信人工智能模式识别中心创建的视觉语言模型数据集,旨在提升模型在中文环境下的表现。该数据集包含200万条数据,主要来源于互联网图像,并通过手动和自动方法进行标注。数据集的创建过程包括图像收集、标注、过滤和语言模型翻译等步骤,特别针对中文数据进行了增强。POINTS1.5数据集主要应用于解决实际世界中的复杂视觉任务,如光学字符识别和图像分析,旨在提升模型在多语言环境下的性能。

POINTS1.5 is a vision-language model dataset developed by the Pattern Recognition Center of WeChat AI, Tencent Inc., which aims to improve the performance of models in Chinese-language contexts. This dataset contains 2 million data samples, mainly sourced from internet images, and is annotated via both manual and automatic approaches. The dataset creation workflow includes steps such as image collection, annotation, filtering, and language model-based translation, with targeted enhancements for Chinese-language data. Primarily intended to solve complex real-world visual tasks such as optical character recognition (OCR) and image analysis, the POINTS1.5 dataset is designed to boost the multilingual performance of models.
提供机构:
腾讯公司微信人工智能模式识别中心
创建时间:
2024-12-11
原始信息汇总

WePOINTS 数据集概述

简介

WePOINTS 是一个多模态模型的集合,旨在创建一个统一的框架,以适应各种模态。这些模型由微信 AI 的研究人员开发,利用了多模态模型领域的最新进展和尖端技术。

最新更新

  • 2024.12.11 发布了 POINTS1.5 的技术报告。
  • 2024.12.06 发布了 POINTS1.5,这是一个比 POINTS 显著增强的模型,支持双语,POINTS1.5-7B 在 OpenCompass 排行榜上排名第一。
  • 2024.11.02 添加了通过困惑度过滤预训练数据的演示脚本。
  • 2024.10.15 发布了 POINTS 与 Qwen2.5-7B。
  • 2024.10.05 开源了 POINTS 的推理代码。
  • 2024.09.07 发布了关于第一个视觉-语言模型的论文。
  • 2024.05.20 发布了关于视觉-语言模型中被忽视方面的论文。

发布计划

  • 即将发布 POINTS1.5 的技术报告。
  • 即将发布 POINTS1.5 的预训练数据集。
  • POINTS1.5 将集成到 SGLang 中。

模型库

模型名称 发布日期 下载链接 备注
POINTS-1-5-Qwen-2-5-7B-Chat 2024.12.06 Hugging Face Qwen2.5-7B
POINTS-Qwen-2-5-7B-Chat 2024.10.15 Hugging Face Qwen2.5-7B
POINTS-Yi-1.5-9B-Chat 2024.10.03 Hugging Face 性能强劲且策略经济

安装

sh git clone https://github.com/WePOINTS/WePOINTS.git cd WePOINTS pip install -e .

使用方法

提供了使用 Hugging Face 🤗 transformers 库的 POINTS1.5 的使用示例。

评估方法

使用 VLMEvalKit 评估模型的性能。

模型汤

POINTS 提出了将不同指令数据集微调的模型进行组合的方法,以增强最终模型的性能。

CATTY

CATTY 是一种将大分辨率图像分割成相同大小的小块的新策略,能够保留原始图像的宽高比。

预训练数据过滤

提供了通过困惑度过滤预训练数据的脚本。

评估结果

基准测试 Qwen2-VL-7B POINTS-7B POINTS1.5-7B
MMBench-TEST-avg 81.0 78.0 80.7
MMStar 60.7 60.9 61.1
MMMU 53.7 51.4 53.8
MathVista 61.4 63.0 66.4
HallucinationBench 50.4 45.6 50.0
AI2D 83.0 81.2 81.4
OCRBench 84.3 71.7 82.3
MMVet 61.8 47.9 62.2
平均值 67.0 62.5 67.4

致谢

POINTS1.5 采用了 Qwen2-VL 的 NaViT,并对 Qwen 团队表示感谢。同时感谢 Haodong Duan 在评估 POINTS1.5 中的协助。

引用

如果我们的工作对您有帮助,欢迎引用:

@article{points1.5, title={POINTS1.5: Building a Vision-Language Model towards Real World Applications}, author={Liu, Yuan and Le Tian and Xiao Zhou and Xinyu Gao and Kavio Yu and Yang Yu and Jie Zhou}, journal={Coming soon}, year={2024} }

@article{liu2024points, title={POINTS: Improving Your Vision-language Model with Affordable Strategies}, author={Liu, Yuan and Zhao, Zhongyin and Zhuang, Ziyuan and Tian, Le and Zhou, Xiao and Zhou, Jie}, journal={arXiv preprint arXiv:2409.04828}, year={2024} }

@article{liu2024rethinking, title={Rethinking Overlooked Aspects in Vision-Language Models}, author={Liu, Yuan and Tian, Le and Zhou, Xiao and Zhou, Jie}, journal={arXiv preprint arXiv:2405.11850}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
POINTS1.5数据集的构建基于POINTS1.0的改进,采用了多项关键创新。首先,模型将原有的CLIP视觉编码器替换为支持动态高分辨率的NaViT风格编码器,使得模型能够处理任意分辨率的图像,无需将图像分割为多个小块。其次,为了增强中文支持,研究团队通过手动和自动方法从互联网收集了大量图像,并进行了标注。此外,团队还提出了一套严格的视觉指令调优数据集过滤方法,确保数据集的质量。
使用方法
POINTS1.5数据集适用于多种视觉语言任务,如光学字符识别、复杂图表分析等。用户可以通过加载数据集进行模型训练,特别是在需要处理高分辨率图像或中文场景时,POINTS1.5能够提供更优的性能。此外,数据集的过滤方法也为用户提供了高质量的视觉指令调优数据,帮助模型更好地理解图像内容并遵循指令。
背景与挑战
背景概述
POINTS1.5是由腾讯微信AI团队开发的一款视觉语言模型,旨在提升其在实际应用中的表现。该数据集是POINTS1.0的增强版本,主要研究人员包括Yuan Liu、Le Tian等,隶属于腾讯公司。POINTS1.5的核心创新包括引入支持动态高分辨率的NaViT视觉编码器、增加双语支持(特别是中文),并通过严格的过滤方法优化视觉指令调优数据集。这些改进使得POINTS1.5在处理复杂图像任务(如光学字符识别和图表分析)时表现优异,尤其在OpenCompass排行榜上,其7B参数版本在少于10亿参数的模型中排名第一。
当前挑战
POINTS1.5在构建过程中面临多项挑战。首先,视觉语言模型领域缺乏高质量的中文开源数据集,导致数据收集和标注过程复杂且耗时。其次,处理高分辨率图像时,传统的固定分辨率视觉编码器需要将图像分割成多个小块,破坏了图像的空间结构,而POINTS1.5通过引入NaViT编码器解决了这一问题。此外,视觉指令调优数据集的过滤和优化也是一个难点,研究人员需要设计严格的过滤方法,以确保数据集的质量和模型的指令跟随能力。最后,如何在有限的训练资源下(少于5亿个token)训练出高性能的模型,也是POINTS1.5面临的一大挑战。
常用场景
经典使用场景
POINTS1.5数据集的经典使用场景主要集中在视觉语言模型的训练与评估中。该数据集通过引入动态高分辨率图像处理能力,支持任意分辨率图像的处理,从而在光学字符识别(OCR)、复杂图表分析等任务中表现出色。此外,POINTS1.5的双语支持特性使其在处理中英文混合任务时具有显著优势,尤其适用于跨语言视觉问答和图像描述生成等场景。
解决学术问题
POINTS1.5数据集通过引入动态高分辨率图像处理和双语支持,解决了传统视觉语言模型在处理高分辨率图像时需要分割图像的问题,同时填补了中文视觉语言数据集的稀缺性。这些创新不仅提升了模型在复杂任务中的表现,还为跨语言视觉理解提供了新的研究方向,推动了视觉语言模型在实际应用中的进一步发展。
实际应用
POINTS1.5数据集在实际应用中展现出广泛的应用潜力,特别是在需要高分辨率图像处理和双语支持的场景中。例如,在医疗影像分析、金融文档处理、教育领域的图表解读等任务中,POINTS1.5能够有效提升模型的准确性和鲁棒性。此外,其在跨语言视觉问答和图像描述生成中的表现,也为国际化应用提供了技术支持。
数据集最近研究
最新研究方向
近年来,视觉-语言模型在处理复杂任务如光学字符识别(OCR)和几何数学问题方面取得了显著进展。POINTS1.5数据集作为这一领域的最新成果,通过引入多项创新技术,进一步提升了模型的实际应用能力。首先,POINTS1.5采用了NaViT风格的视觉编码器,支持动态高分辨率图像处理,避免了传统模型中图像分割的局限性。其次,该数据集增加了对中文的双语支持,通过手动和自动标注相结合的方式,构建了高质量的中文视觉指令数据集。此外,POINTS1.5还提出了一套严格的视觉指令数据过滤方法,显著提升了模型的指令遵循能力。这些创新使得POINTS1.5在处理实际应用任务时表现出色,尤其在OpenCompass排行榜上,其7B参数版本在10亿参数以下的模型中排名第一。
相关研究论文
  • 1
    POINTS1.5: Building a Vision-Language Model towards Real World Applications腾讯公司微信人工智能模式识别中心 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作