FreedomIntelligence/ALLaVA-4V-Chinese

Name: FreedomIntelligence/ALLaVA-4V-Chinese
Creator: FreedomIntelligence
Published: 2024-04-29 15:26:44
License: 暂无描述

Hugging Face2024-04-29 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/FreedomIntelligence/ALLaVA-4V-Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - question-answering - text-generation language: - zh tags: - GPT-4V - LVLM - Vision - Language size_categories: - 1M<n<10M configs: - config_name: allava_laion data_files: - split: caption path: "allava_laion/ALLaVA-Caption-LAION-4V_Chinese.json" - split: instruct path: "allava_laion/ALLaVA-Instruct-LAION-4V_Chinese.json" - config_name: allava_vflan data_files: - split: caption path: "allava_vflan/ALLaVA-Caption-VFLAN-4V_Chinese.json" - split: instruct path: "allava_vflan/ALLaVA-Instruct-VFLAN-4V_Chinese.json" # - config_name: allava_laion_instruction # data_files: "allava_laion/ALLaVA-Instruct-LAION-4V.json" # configs: # - config_name: default # data_files: # - split: allava_laion_caption # path: "allava_laion/ALLaVA-Caption-LAION-4V.json" # - split: allava_laion_instruction # path: "allava_laion/ALLaVA-Instruction-LAION-4V.json" # configs: # - config_name: default # - data_files: # - split: allava_laion_caption # - path: # - "allava_laion/ALLaVA-Caption-LAION-4V.json" # - split: allava_laion_instruction # - path: # - "allava_laion/ALLaVA-Instruction-LAION-4V.json" --- ## ALLaVA-4V for Chinese This is the Chinese version of the ALLaVA-4V data. We have translated the ALLaVA-4V data into Chinese through ChatGPT and instructed ChatGPT not to translate content related to OCR. The original dataset can be found [here](https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V), and the image data can be downloaded from [ALLaVA-4V](https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V). #### Citation If you find our data useful, please consider citing our work! We are FreedomIntelligence from Shenzhen Research Institute of Big Data and The Chinese University of Hong Kong, Shenzhen. ``` @misc{chen2024allava, title={ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model}, author={Guiming Hardy Chen and Shunian Chen and Ruifei Zhang and Junying Chen and Xiangbo Wu and Zhiyi Zhang and Zhihong Chen and Jianquan Li and Xiang Wan and Benyou Wang}, year={2024}, eprint={2402.11684}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

许可证：Apache-2.0 任务类别： - 问答（question-answering） - 文本生成（text-generation）语言： - 中文（zh）标签： - GPT-4V - 大视觉语言模型（LVLM） - 视觉（Vision） - 语言（Language）样本量区间：100万 < 样本量 < 1000万配置项： - 配置名称：allava_laion 数据文件： - 拆分：图像描述（caption）路径："allava_laion/ALLaVA-Caption-LAION-4V_Chinese.json" - 拆分：指令微调（instruct）路径："allava_laion/ALLaVA-Instruct-LAION-4V_Chinese.json" - 配置名称：allava_vflan 数据文件： - 拆分：图像描述（caption）路径："allava_vflan/ALLaVA-Caption-VFLAN-4V_Chinese.json" - 拆分：指令微调（instruct）路径："allava_vflan/ALLaVA-Instruct-VFLAN-4V_Chinese.json" # - 配置名称：allava_laion_instruction # 数据文件："allava_laion/ALLaVA-Instruct-LAION-4V.json" # 配置项： # - 配置名称：默认（default） # 数据文件： # - 拆分：allava_laion_caption # 路径："allava_laion/ALLaVA-Caption-LAION-4V.json" # - 拆分：allava_laion_instruction # 路径："allava_laion/ALLaVA-Instruction-LAION-4V.json" # 配置项： # - 配置名称：默认（default） # - 数据文件： # - 拆分：allava_laion_caption # - 路径： # - "allava_laion/ALLaVA-Caption-LAION-4V.json" # - 拆分：allava_laion_instruction # - 路径： # - "allava_laion/ALLaVA-Instruction-LAION-4V.json" ## 面向中文的 ALLaVA-4V 数据集本数据集为 ALLaVA-4V 的中文版本。我们通过 ChatGPT 将原始 ALLaVA-4V 数据集翻译为中文，并要求 ChatGPT 不对与光学字符识别（OCR，Optical Character Recognition）相关的内容进行翻译。原始数据集可于[此处](https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V)获取，图像数据亦可从[ALLaVA-4V](https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V)下载。 #### 引用声明若您的研究中使用了本数据集，请引用我们的相关工作！我们是来自深圳大数据研究院与香港中文大学（深圳）的 FreedomIntelligence 团队。 @misc{chen2024allava, title={ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model}, author={Guiming Hardy Chen and Shunian Chen and Ruifei Zhang and Junying Chen and Xiangbo Wu and Zhiyi Zhang and Zhihong Chen and Jianquan Li and Xiang Wan and Benyou Wang}, year={2024}, eprint={2402.11684}, archivePrefix={arXiv}, primaryClass={cs.CL} }

提供机构：

FreedomIntelligence

原始信息汇总

数据集概述

基本信息

许可证：Apache-2.0
任务类别：
- 问答
- 文本生成
语言：中文
标签：
- GPT-4V
- LVLM
- Vision
- Language
数据集大小：1M<n<10M

配置信息

配置名称：allava_laion
- 数据文件：
  - 分割：caption
    - 路径："allava_laion/ALLaVA-Caption-LAION-4V_Chinese.json"
  - 分割：instruct
    - 路径："allava_laion/ALLaVA-Instruct-LAION-4V_Chinese.json"
配置名称：allava_vflan
- 数据文件：
  - 分割：caption
    - 路径："allava_vflan/ALLaVA-Caption-VFLAN-4V_Chinese.json"
  - 分割：instruct
    - 路径："allava_vflan/ALLaVA-Instruct-VFLAN-4V_Chinese.json"

数据集描述

版本：中文版
翻译说明：通过ChatGPT将ALLaVA-4V数据翻译成中文，并指示ChatGPT不翻译与OCR相关的内容。

引用信息

作者：Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang
标题：ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model
年份：2024
arXiv：2402.11684
主要类别：cs.CL

搜集汇总

数据集介绍

构建方式

在视觉语言模型蓬勃发展的背景下，ALLaVA-4V-Chinese数据集通过精心的跨语言转换策略构建而成。其核心方法是将原始的英文版ALLaVA-4V数据，利用先进的ChatGPT模型进行自动化翻译，并特别指示模型保留图像中与光学字符识别相关的文本内容，以确保视觉场景中文字信息的完整性。这一过程生成了包含字幕和指令两种格式的中文数据，分别对应图像描述和视觉问答任务，为中文多模态研究提供了高质量的语料基础。

特点

该数据集在中文多模态领域展现出鲜明的特色。其规模庞大，数据量介于一百万到一千万之间，覆盖了广泛的视觉场景和语言表达。数据集精心划分为两个主要配置，分别基于LAION和VFLAN图像源，每个配置下又细分为字幕和指令两种任务类型，结构清晰且用途明确。尤为关键的是，数据在翻译过程中刻意保留了原始图像中的OCR文本信息，这一设计使得数据集能够更好地支持需要理解图像内嵌文字的复杂视觉语言任务，增强了其实用价值。

使用方法

对于致力于中文视觉语言理解的研究者而言，该数据集提供了便捷的应用路径。用户可通过指定的配置文件轻松加载不同子集，例如‘allava_laion’或‘allava_vflan’，并进一步选择‘caption’或‘instruct’分割以适配图像描述生成或视觉指令跟随等具体任务。需要注意的是，数据集本身仅包含文本标注，关联的图像数据需从原始ALLaVA-4V仓库另行下载。这种文本与图像分离的存储方式要求用户在本地或实验环境中将两者对齐，以进行完整的模型训练或评估。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉语言模型已成为连接图像与文本理解的关键桥梁。ALLaVA-4V-Chinese数据集由深圳大数据研究院与香港中文大学（深圳）的自由智能团队于2024年创建，旨在构建一个高质量的中文视觉语言指令数据集。该数据集的核心研究问题聚焦于如何利用GPT-4V合成数据来训练轻量级的视觉语言模型，从而推动中文多模态交互系统的发展，对自然语言处理与计算机视觉的交叉领域产生了深远影响。

当前挑战

在视觉语言模型领域，实现精准的图像描述与复杂指令理解仍面临显著挑战。ALLaVA-4V-Chinese数据集致力于解决多模态问答与文本生成任务中的语义对齐难题，要求模型能够准确解析图像内容并生成连贯的中文响应。数据构建过程中，团队需克服机器翻译带来的语义失真风险，特别是涉及光学字符识别相关内容时，必须确保文本的原始含义得以保留，同时维持数据规模在百万至千万级别之间的质量一致性。

常用场景

经典使用场景

在视觉语言模型领域，ALLaVA-4V-Chinese数据集为中文多模态研究提供了关键支撑。该数据集通过整合图像与文本对，广泛应用于视觉问答和文本生成任务，尤其适用于训练轻量级视觉语言模型。其经典使用场景包括模型预训练与指令微调，能够有效提升模型在中文语境下对视觉内容的理解与描述能力，为后续的跨模态交互研究奠定数据基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在轻量级视觉语言模型的优化与扩展。例如，研究团队通过微调与蒸馏技术，开发出更高效的模型架构，如ALLaVA-Lite系列，这些模型在保持性能的同时显著降低了计算资源需求。此外，该数据集也激发了跨语言多模态对齐的研究，推动了中文与其他语言在视觉理解任务上的协同进步，为后续开源社区的多模态基准测试提供了重要参考。

数据集最近研究