Lin-Chen/Open-LLaVA-NeXT-mix1M
收藏Hugging Face2024-05-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Lin-Chen/Open-LLaVA-NeXT-mix1M
下载链接
链接失效反馈官方服务:
资源简介:
Open-LLaVA-NeXT 1M数据集是一个包含100万条指令微调数据的数据集,用于复现LLaVA-NeXT系列模型。该数据集在sharegpt4v_mix665k数据集的基础上进行了增强,并添加了200K ALLaVA-Instruct-VFLAN-4V数据作为替代。由于TextVQA已被大多数现有的大型多模态模型(LMMs)包含在训练数据中,因此该数据集保留了TextVQA以便与其他LMMs进行公平比较。数据集的主要用途是用于大型多模态模型和聊天机器人的研究,主要用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
提供机构:
Lin-Chen
原始信息汇总
Open-LLaVA-NeXT 1M 数据集卡片
数据集详情
数据集类型: 用于重现 LLaVA-NeXT 系列的 1M SFT 数据。
我们通过增加额外的数据来扩充 sharegpt4v_mix665k 数据集。我们尽力使我们的训练数据与 LLaVA-NeXT 的训练数据保持一致。然而,我们无法获取 LLaVA-NeXT 收集的数万条真实用户交互数据。因此,我们使用 200K ALLaVA-Instruct-VFLAN-4V 数据作为替代。此外,由于 TextVQA 已被包含在大多数现有的大型多模态模型(LMMs)的训练数据中,我们选择保留它以实现与其他 LMMs 的公平比较。
数据集日期: open-llava-next_instruct_mix1M.json 收集于 2024 年 4 月 27 日。
更多信息资源: 代码
预期用途
主要预期用途: open-llava-next_instruct_mix1M 的主要用途是针对 LMMs 和聊天机器人的研究。 主要预期用户: 该数据集的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



