Leopard-Instruct|多模态数据集|指令微调数据集

huggingface2024-11-08 更新2024-12-12 收录

多模态

指令微调

下载链接：

https://huggingface.co/datasets/wyu1/Leopard-Instruct

下载链接

链接失效反馈

资源简介：

Leopard-Instruct 是一个大规模指令微调数据集，包含92.5万条实例，其中73.9万条专为文本丰富的多图像场景设计。该数据集已用于训练 Leopard-LLaVA 和 Leopard-Idefics2。

创建时间：

2024-11-08

原始信息汇总

Leopard-Instruct 数据集概述

基本信息

许可证: Apache 2.0
语言: 英语
标签:
- multimodal
- instruction-following
- multi-image
- lmm
- vlm
- mllm
数据量: 100K<n<1M

数据集配置

arxiv:
- 分割: train
- 路径: arxiv/*
chartgemma:
- 分割: train
- 路径: chartgemma/*
chartqa:
- 分割: train
- 路径: chartqa/*
dude:
- 分割: train
- 路径: dude/*
dvqa:
- 分割: train
- 路径: dvqa/*
figureqa:
- 分割: train
- 路径: figureqa/*
iconqa:
- 分割: train
- 路径: iconqa/*
infographics:
- 分割: train
- 路径: infographics/*
llavar:
- 分割: train
- 路径: llavar/*
mapqa:
- 分割: train
- 路径: mapqa/*
mathv360k:
- 分割: train
- 路径: mathv360k/*
mind2web:
- 分割: train
- 路径: mind2web/*
monkey:
- 分割: train
- 路径: monkey/*
mpdocvqa:
- 分割: train
- 路径: mpdocvqa/*
mplugdocreason:
- 分割: train
- 路径: mplugdocreason/*
multichartqa:
- 分割: train
- 路径: multi_chartqa/*
multihiertt:
- 分割: train
- 路径: multihiertt/*
multitab:
- 分割: train
- 路径: multitab/*
omniact:
- 分割: train
- 路径: omniact/*
pew_chart:
- 分割: train
- 路径: pew_chart/*
rico:
- 分割: train
- 路径: rico/*
slidesgeneration:
- 分割: train
- 路径: slidesgeneration/*
slideshare:
- 分割: train
- 路径: slideshare/*
slidevqa:
- 分割: train
- 路径: slidevqa/*
docvqa:
- 分割: train
- 路径: spdocvqa/*
tab_entity:
- 分割: train
- 路径: tab_entity/*
tabmwp:
- 分割: train
- 路径: tabmwp/*
tat_dqa:
- 分割: train
- 路径: tat_dqa/*
website_screenshots:
- 分割: train
- 路径: website_screenshots/*
webui:
- 分割: train
- 路径: webui/*
webvision:
- 分割: train
- 路径: webvision/*

数据集概述

Leopard-Instruct 是一个大规模指令调优数据集，包含925K个实例，其中739K个实例专门设计用于文本丰富的多图像场景。
该数据集用于训练 Leopard-LLaVA 和 Leopard-Idefics2 模型。

数据加载

加载数据集而不自动下载和处理图像： python import datasets dataset = datasets.load_dataset("wyu1/Leopard-Instruct", "webvision")
加载所有子集的图像： python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("wyu1/Leopard-Instruct", config_name)

引用

@article{jia2024leopard, title={LEOPARD: A Vision Language Model For Text-Rich Multi-Image Tasks}, author={Jia, Mengzhao and Yu, Wenhao and Ma, Kaixin and Fang, Tianqing and Zhang, Zhihan and Ouyang, Siru and Zhang, Hongming and Jiang, Meng and Yu, Dong}, journal={arXiv preprint arXiv:2410.01744}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

Leopard-Instruct数据集的构建基于多模态指令调优的需求，涵盖了925K个实例，其中739K专门针对文本丰富的多图像场景。数据集通过整合多个子集，如arxiv、chartgemma、chartqa等，确保了数据的多样性和广泛性。每个子集均以训练集的形式存在，路径明确，便于后续的数据加载和处理。

使用方法

使用Leopard-Instruct数据集时，可以通过Hugging Face的datasets库进行加载。用户可以选择加载特定子集，如webvision，或一次性加载所有子集。加载时，可以选择是否自动下载和处理图像，以适应不同的研究需求。通过简单的代码调用，用户可以快速获取数据集中的图像和文本信息，便于后续的模型训练和评估。

背景与挑战

背景概述

Leopard-Instruct数据集由腾讯AI实验室于2024年推出，旨在解决多模态任务中的文本丰富多图像场景问题。该数据集包含925K个实例，其中739K专门用于文本丰富的多图像场景，为训练视觉语言模型（如Leopard-LLaVA和Leopard-Idefics2）提供了重要支持。该数据集的推出标志着在多模态学习领域的一个重要进展，特别是在处理复杂多图像任务时，为模型提供了丰富的训练资源。

当前挑战

Leopard-Instruct数据集面临的挑战主要体现在两个方面。首先，在处理文本丰富的多图像场景时，模型需要具备强大的跨模态理解能力，以准确解析图像中的文本信息并生成相应的指令。其次，在数据集的构建过程中，如何确保数据的多样性和质量是一个关键问题，特别是在多图像场景下，图像之间的关联性和一致性需要精心设计。此外，数据集的规模庞大，如何高效地处理和存储这些数据也是一个技术挑战。

常用场景

经典使用场景

Leopard-Instruct数据集在多模态学习领域具有广泛的应用，尤其是在文本丰富的多图像任务中。该数据集通过提供大量指令调优实例，为视觉语言模型（VLM）和多模态大语言模型（MLLM）的训练提供了坚实的基础。研究人员可以利用该数据集进行多图像推理、文本与图像的联合理解等任务，从而推动多模态学习技术的发展。

解决学术问题

Leopard-Instruct数据集解决了多模态学习中的关键问题，特别是在文本与图像联合理解方面。通过提供丰富的多图像场景和文本指令，该数据集帮助研究人员克服了传统单图像任务中的局限性，提升了模型在处理复杂多模态任务时的性能。这一数据集的出现为多模态学习领域的研究提供了新的方向，推动了视觉语言模型的进一步发展。

实际应用

在实际应用中，Leopard-Instruct数据集被广泛用于开发智能助手、自动化文档处理和视觉问答系统。例如，在智能助手中，该数据集可以帮助模型更好地理解用户指令并生成相应的图像或文本响应。在自动化文档处理中，模型可以利用该数据集进行多图像文档的分析和理解，从而提高处理效率和准确性。这些应用展示了Leopard-Instruct数据集在实际场景中的巨大潜力。

数据集最近研究

最新研究方向

在视觉语言模型领域，Leopard-Instruct数据集以其丰富的多图像文本场景数据，成为当前研究的热点。该数据集包含925K实例，其中739K专门针对文本丰富的多图像场景设计，为训练Leopard-LLaVA和Leopard-Idefics2模型提供了坚实的基础。近年来，随着多模态学习的快速发展，视觉语言模型在处理复杂多图像任务中的表现备受关注。Leopard-Instruct的出现，不仅推动了多图像任务的研究，还为文本与图像结合的深度理解提供了新的可能性。其应用范围涵盖文档理解、图表解析、网页截图分析等多个领域，显著提升了模型在实际场景中的泛化能力和准确性。这一数据集的研究方向，正逐步引领视觉语言模型向更高效、更智能的方向发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据，并与movielens ml-latest数据集通过共同的imdb字段进行交集处理，最终得到15752条共同数据。数据存储格式为JSON，支持导入到MongoDB或其他数据库使用。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。