LLaVA-OneVision-Mid-Data

Hugging Face2024-08-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-Mid-Data

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-OneVision数据集由Bo Li, Kaichen Zhang, Hao Zhang, Yuanhan Zhang, Renrui Zhang, Feng Li, Dong Guo等人策划，包含用于最终图像阶段和one-vision阶段的数据分割。数据集包括从Cambrian, Cauldron, UReader等现有数据集集合中提取的子集，以及AI2D, OKVQA等单源数据集。该数据集用于训练LLaVA-OneVision中阶段模型，仅允许用于学术研究和教育目的。数据集以Hugging Face Dataset兼容格式上传，使用json和image/video文件夹存储数据。

The LLaVA-OneVision dataset was curated by Bo Li, Kaichen Zhang, Hao Zhang, Yuanhan Zhang, Renrui Zhang, Feng Li, Dong Guo, et al. It contains data splits for the final image stage and the one-vision stage. The dataset includes subsets extracted from existing dataset collections such as Cambrian, Cauldron, and UReader, as well as single-source datasets like AI2D and OKVQA, among others. This dataset is intended for training the staged models in LLaVA-OneVision, and is only permitted for academic research and educational purposes. It is uploaded in a Hugging Face Dataset-compatible format, with data stored in JSON files and image/video folders.

创建时间：

2024-08-10

原始信息汇总

数据集卡片 for LLaVA-OneVision

数据集描述

由以下人员策划： Bo Li, Kaichen Zhang, Hao Zhang, Yuanhan Zhang, Renrui Zhang, Feng Li, Dong Guo
语言（NLP）： 英语, 中文
许可证： Apache License 2.0

数据集来源

数据集收集： 包含来自现有数据集集合 Cambrian, Cauldron, UReader 的几个子集。由于我们仅使用了这些数据集的几个子集，并进行了清洗和重新标注过程，我们将处理后的版本上传到我们自己的仓库，并感谢原作者提供原始数据集。
其他数据集： 对于剩余的单一来源数据集，如 AI2D, OKVQA，我们在论文中引用并链接到原始来源。

用途

该数据集用于训练 LLaVA-OneVision Mid-Stage 模型。我们仅允许将此数据集用于学术研究和教育目的。对于 OpenAI GPT-4 生成的数据，我们建议用户查看 OpenAI 使用政策。

数据集结构

我们在 训练文档 中解释了中阶段和最终阶段的数据组成。

代码指导

为了帮助受众更好地理解我们的数据集，我们将其上传到与 Hugging Face 数据集兼容的格式。在 LLaVA-OneVision 训练期间，我们使用 json 和 image/video 文件夹来存储数据。

以下是转换数据集格式并进行 LLaVA-OneVision 模型训练的代码指导：

python import os from datasets import load_dataset from tqdm import tqdm import json

data = load_dataset("lmms-lab/LLaVA-OneVision-Mid-Data", split="train")

image_folder = "<your_image_folder>"

converted_data = []

for da in tqdm(data): json_data = {} json_data["id"] = da["id"] if da["image"] is not None: json_data["image"] = f"{da[id]}.jpg" da["image"].save(os.path.join(image_folder, json_data["image"])) json_data["conversations"] = da["conversations"] converted_data.append(json_data)

with open("<your_json_file>.json", "w") as f: json.dump(converted_data, f, indent=4, ensure_ascii=False)

数据集卡片作者

该数据集由以下作者策划：

Bo Li, Kaichen Zhang, Hao Zhang, Yuanhan Zhang, Renrui Zhang, Feng Li

数据集卡片联系人

Bo Li: drluodian@gmail.com

Kaichen Zhang

搜集汇总

数据集介绍

构建方式

LLaVA-OneVision-Mid-Data数据集的构建过程涉及多源数据的整合与再处理。该数据集从多个现有数据集中选取了部分子集，包括Cambrian、Cauldron和UReader等，并对其进行了清洗和重新标注。此外，还引入了AI2D、OKVQA等单一来源的数据集，最终将这些数据整合为一个统一的多模态数据集。数据处理工作主要由Bo Li和Kaichen Zhang负责，确保了数据的多样性和质量。

特点

LLaVA-OneVision-Mid-Data数据集的特点在于其多模态性质，涵盖了文本生成任务，并支持中英双语。数据规模介于100万到1000万条之间，适用于中等规模的模型训练。数据集经过精心筛选和再标注，确保了数据的多样性和高质量。此外，数据集中还包含了OpenAI GPT-4生成的数据，用户在使用时需遵守OpenAI的使用政策。

使用方法

LLaVA-OneVision-Mid-Data数据集主要用于LLaVA-OneVision模型的中期训练阶段。用户可以通过HuggingFace平台直接下载压缩后的JSON文件和图像文件夹，解压后即可使用。数据集的使用仅限于学术研究和教育目的，禁止商业用途。具体的数据结构和训练细节可参考GitHub上的训练文档，以获取更多信息。

背景与挑战

背景概述

LLaVA-OneVision-Mid-Data数据集是由Bo Li、Kaichen Zhang等研究人员于2024年创建的多模态数据集，旨在支持多模态模型的训练与研究。该数据集整合了来自Cambrian、Cauldron、UReader等多个现有数据集的子集，并经过清洗与重新标注处理，涵盖了中英双语文本与图像数据。其核心研究问题在于如何通过多模态数据的融合与处理，提升模型在复杂任务中的表现能力。该数据集的发布为多模态学习领域提供了重要的数据支持，推动了相关技术的进一步发展。

当前挑战

LLaVA-OneVision-Mid-Data数据集在构建与应用过程中面临多重挑战。首先，多模态数据的融合与对齐是核心难题，尤其是文本与图像之间的语义一致性需要精确处理。其次，数据清洗与重新标注过程耗费大量人力与时间，确保数据质量的同时需兼顾效率。此外，数据集规模较大，处理与存储的技术要求较高，尤其是在转换为HuggingFace格式时遇到技术瓶颈，导致部分数据以原始格式上传。这些挑战不仅影响了数据集的构建效率，也对后续模型训练提出了更高的技术要求。

常用场景

经典使用场景

LLaVA-OneVision-Mid-Data数据集在多模态文本生成领域具有重要应用，尤其在结合视觉与语言模型的研究中。该数据集通过整合多种来源的数据，包括Cambrian、Cauldron和UReader等，为研究人员提供了一个丰富的多模态训练环境。其经典使用场景包括训练和评估多模态模型，特别是在处理中英文混合文本和图像数据的任务中，能够有效提升模型的跨模态理解能力。

实际应用

在实际应用中，LLaVA-OneVision-Mid-Data数据集被广泛用于开发智能助手、教育工具和跨语言信息检索系统。例如，在教育领域，该数据集可以用于训练能够同时理解图像和文本的智能辅导系统，帮助学生更好地理解复杂概念。此外，在跨语言信息检索中，该数据集的多模态特性能够提升系统对不同语言和视觉信息的处理能力，从而提高检索的准确性和效率。

衍生相关工作

LLaVA-OneVision-Mid-Data数据集衍生了一系列经典研究工作，特别是在多模态学习和生成模型领域。例如，基于该数据集的研究成果被应用于改进LLaVA-OneVision模型的训练过程，进一步提升了模型在视觉问答和图像描述任务中的表现。此外，该数据集还启发了其他多模态数据集的建设，推动了相关领域的技术进步和标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集