Lin-Chen/Open-LLaVA-NeXT-mix1M

Name: Lin-Chen/Open-LLaVA-NeXT-mix1M
Creator: Lin-Chen
Published: 2024-05-25 08:34:31
License: 暂无描述

Hugging Face2024-05-25 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Lin-Chen/Open-LLaVA-NeXT-mix1M

下载链接

链接失效反馈

官方服务：

资源简介：

Open-LLaVA-NeXT 1M数据集是一个包含100万条指令微调数据的数据集，用于复现LLaVA-NeXT系列模型。该数据集在sharegpt4v_mix665k数据集的基础上进行了增强，并添加了200K ALLaVA-Instruct-VFLAN-4V数据作为替代。由于TextVQA已被大多数现有的大型多模态模型（LMMs）包含在训练数据中，因此该数据集保留了TextVQA以便与其他LMMs进行公平比较。数据集的主要用途是用于大型多模态模型和聊天机器人的研究，主要用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

提供机构：

Lin-Chen

原始信息汇总

Open-LLaVA-NeXT 1M 数据集卡片

数据集详情

数据集类型： 用于重现 LLaVA-NeXT 系列的 1M SFT 数据。

我们通过增加额外的数据来扩充 sharegpt4v_mix665k 数据集。我们尽力使我们的训练数据与 LLaVA-NeXT 的训练数据保持一致。然而，我们无法获取 LLaVA-NeXT 收集的数万条真实用户交互数据。因此，我们使用 200K ALLaVA-Instruct-VFLAN-4V 数据作为替代。此外，由于 TextVQA 已被包含在大多数现有的大型多模态模型（LMMs）的训练数据中，我们选择保留它以实现与其他 LMMs 的公平比较。

数据集日期： open-llava-next_instruct_mix1M.json 收集于 2024 年 4 月 27 日。

更多信息资源： 代码

预期用途

主要预期用途： open-llava-next_instruct_mix1M 的主要用途是针对 LMMs 和聊天机器人的研究。 主要预期用户： 该数据集的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集