LLaVA-NeXT-Data|多模态数据数据集|模型训练数据集

huggingface2024-08-09 更新2024-12-12 收录

多模态数据

模型训练

下载链接：

https://huggingface.co/datasets/lmms-lab/LLaVA-NeXT-Data

下载链接

链接失效反馈

资源简介：

LLaVA-NeXT数据集是一个多模态数据集，包含英语和中文两种语言。数据集特征包括id、conversations、data_source和image，其中conversations包含from和value两个子特征。数据集由Haotian Liu等人策划，用于训练LLaVA-NeXT模型，仅限学术研究和教育用途。数据集来源包括高质量的用户指令数据和多模态文档/图表数据。

创建时间：

2024-08-08

原始信息汇总

数据集概述

数据集信息

特征

id: 字符串类型
conversations: 列表类型
- from: 字符串类型
- value: 字符串类型
data_source: 字符串类型
image: 图像类型

分割

train:
- 字节数: 124810423962.272
- 样本数: 779289

大小

下载大小: 92078304318
数据集大小: 124810423962.272

配置

default:
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集描述

语言: 英语, 中文
许可证: Apache License 2.0
来源:
- 高质量用户指令数据
- 多模态文档/图表数据

使用

该数据集用于LLaVA-NeXT模型的训练，仅允许用于学术研究和教育目的。

代码指导

提供了将数据集转换为LLaVA-NeXT格式并进行模型训练的代码示例。

引用

@misc{liu2024llavanext, title={LLaVA-NeXT: Improved reasoning, OCR, and world knowledge}, url={https://llava-vl.github.io/blog/2024-01-30-llava-next/}, author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae}, month={January}, year={2024} }

数据集作者

Haotian Liu
Chunyuan Li
Yuheng Li
Bo Li
Yuanhan Zhang
Sheng Shen
Yong Jae Lee

AI搜集汇总

数据集介绍

构建方式

LLaVA-NeXT-Data数据集的构建过程体现了对高质量视觉指令数据的严格筛选与整合。该数据集主要来源于两个关键数据源：现有的GPT-V数据（如LAION-GPT-V和ShareGPT-4V）以及从LLaVA演示中收集的15K视觉指令调优数据。为确保数据的多样性和响应质量，研究团队特别关注任务指令的广泛覆盖和用户反馈的积极导向。此外，数据集还剔除了TextCaps，并引入了DocVQA、SynDog-EN、ChartQA等数据，以增强模型在文档、图表理解方面的能力。

特点

LLaVA-NeXT-Data数据集的特点在于其多模态特性，涵盖了文本与图像的结合，特别适合用于视觉指令跟随任务。数据集包含约779K条数据，每条数据均包含对话记录、数据来源以及相关图像信息。通过精心筛选，数据集确保了指令的多样性和高质量响应，同时避免了潜在的隐私问题和有害内容。此外，数据集的构建还特别注重模型在零样本OCR能力和图表理解方面的表现，使其在视觉语言模型的训练中具有显著优势。

使用方法

LLaVA-NeXT-Data数据集的使用方法主要围绕视觉语言模型的训练展开。用户可以通过Hugging Face平台加载数据集，并将其转换为LLaVA-NeXT模型所需的格式。具体操作包括将图像数据保存至指定文件夹，并将对话记录以JSON格式存储。通过提供的代码示例，用户可以轻松实现数据格式的转换，并进一步用于模型的训练与调优。该数据集的使用仅限于学术研究和教育目的，用户在使用GPT-4生成的数据时需遵守OpenAI的使用政策。

背景与挑战

背景概述

LLaVA-NeXT-Data数据集由Haotian Liu、Chunyuan Li等研究人员于2024年创建，旨在支持LLaVA-NeXT模型的指令微调阶段。该数据集涵盖了多模态视觉指令跟随任务，包含高质量的视觉对话数据和多模态文档/图表数据。数据集的核心研究问题在于如何通过多样化的任务指令和高质量的响应，提升模型在真实场景中的表现。LLaVA-NeXT-Data的发布显著推动了多模态大模型在视觉理解和对话生成领域的发展，为相关研究提供了重要的数据支持。

当前挑战

LLaVA-NeXT-Data数据集面临的主要挑战包括两个方面。首先，在领域问题方面，如何确保视觉指令跟随任务的多样性和响应质量是一个关键挑战。数据集需要涵盖广泛的用户意图和场景，同时生成高质量的响应以满足用户需求。其次，在构建过程中，数据集的创建者需要处理隐私和版权问题，例如过滤潜在有害或涉及隐私的样本，并确保数据来源的合法性。此外，由于部分用户数据因政策问题未能公开，数据集的完整性和多样性受到一定限制，这对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

LLaVA-NeXT-Data数据集在视觉-语言多模态模型的指令微调阶段中扮演了关键角色。该数据集通过整合高质量的视觉指令跟随数据，涵盖了广泛的用户意图和任务类型，特别适用于训练能够理解和执行复杂视觉任务的模型。数据集中的图像和对话数据来源于真实用户请求，确保了模型在实际应用中的泛化能力。

解决学术问题

LLaVA-NeXT-Data数据集解决了多模态模型在视觉理解和语言生成任务中的关键挑战。通过引入多样化的视觉指令数据和高质量的响应生成，该数据集显著提升了模型在零样本OCR能力、图表理解和复杂场景推理等方面的表现。其数据来源的多样性和高质量标注为学术研究提供了坚实的基础，推动了多模态模型在真实世界应用中的发展。

衍生相关工作

LLaVA-NeXT-Data数据集衍生了一系列经典的多模态研究工作，如LLaVA-NeXT和LLaVA-NeXT(stronger)模型的开发。这些模型在视觉-语言任务中展现了卓越的性能，特别是在零样本OCR、图表理解和复杂场景推理方面。此外，该数据集还启发了其他研究团队探索多模态模型在更多实际场景中的应用，如文档理解、视觉问答和智能助手等。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录