Leopard-Instruct

Hugging Face2024-10-31 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wyu1/Leopard-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Leopard-Instruct是一个大规模的指令调优数据集，包含925K个实例，其中739K个专门设计用于文本丰富的多图像场景。该数据集用于训练Leopard-LLaVA和Leopard-Idefics2模型。数据集采用Apache-2.0许可证，主要语言为英语，标签包括多模态、指令跟随、多图像，并且实例数量在100K到1M之间。

创建时间：

2024-10-30

原始信息汇总

Leopard-Instruct 数据集概述

数据集配置

arxiv:
- 数据文件路径: arxiv/*
chartgemma:
- 数据文件路径: chartgemma/*
chartqa:
- 数据文件路径: chartqa/*
dude:
- 数据文件路径: dude/*
dvqa:
- 数据文件路径: dvqa/*
figureqa:
- 数据文件路径: figureqa/*
iconqa:
- 数据文件路径: iconqa/*
infographics:
- 数据文件路径: infographics/*
llavar:
- 数据文件路径: llavar/*
mapqa:
- 数据文件路径: mapqa/*
mathv360k:
- 数据文件路径: mathv360k/*
mind2web:
- 数据文件路径: mind2web/*
monkey:
- 数据文件路径: monkey/*
mpdocvqa:
- 数据文件路径: mpdocvqa/*
mplugdocreason:
- 数据文件路径: mplugdocreason/*
multichartqa:
- 数据文件路径: multi_chartqa/*
multihiertt:
- 数据文件路径: multihiertt/*
multitab:
- 数据文件路径: multitab/*
omniact:
- 数据文件路径: omniact/*
pew_chart:
- 数据文件路径: pew_chart/*
rico:
- 数据文件路径: rico/*
slidesgeneration:
- 数据文件路径: slidesgeneration/*
slideshare:
- 数据文件路径: slideshare/*
slidevqa:
- 数据文件路径: slidevqa/*
docvqa:
- 数据文件路径: spdocvqa/*
tab_entity:
- 数据文件路径: tab_entity/*
tabmwp:
- 数据文件路径: tabmwp/*
tat_dqa:
- 数据文件路径: tat_dqa/*
website_screenshots:
- 数据文件路径: website_screenshots/*
webui:
- 数据文件路径: webui/*
webvision:
- 数据文件路径: webvision/*

数据集信息

许可证: Apache 2.0
语言: 英语
标签:
- multimodal
- instruction-following
- multi-image
- lmm
- vlm
- mllm
数据集规模: 100K < n < 1M

数据集摘要

总实例数: 925K
文本丰富、多图像场景实例数: 739K
用途: 用于训练 Leopard-LLaVA 和 Leopard-Idefics2 模型。

数据集加载

加载单个子集: python import datasets dataset = datasets.load_dataset("wyu1/Leopard-Instruct", "webvision")
加载所有子集: python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("wyu1/Leopard-Instruct", config_name)

引用

@article{jia2024leopard, title={LEOPARD: A Vision Language Model For Text-Rich Multi-Image Tasks}, author={Jia, Mengzhao and Yu, Wenhao and Ma, Kaixin and Fang, Tianqing and Zhang, Zhihan and Ouyang, Siru and Zhang, Hongming and Jiang, Meng and Yu, Dong}, journal={arXiv preprint arXiv:2410.01744}, year={2024} }

搜集汇总

数据集介绍

构建方式

Leopard-Instruct数据集的构建基于多模态指令调优的需求，涵盖了925K个实例，其中739K专门针对文本丰富的多图像场景。该数据集通过整合多个子集，如arxiv、chartgemma、chartqa等，确保了数据的多样性和广泛性。每个子集均以训练集的形式存在，路径明确，便于数据加载和处理。数据集的构建过程注重多模态数据的融合，旨在为视觉语言模型提供丰富的训练素材。

特点

Leopard-Instruct数据集的特点在于其多模态和指令调优的结合，特别适用于文本丰富的多图像任务。数据集包含大量多图像场景，能够有效支持视觉语言模型的训练。其子集涵盖了从图表问答到网页截图等多种类型，确保了数据的多样性和广泛性。数据集规模在100K到1M之间，适合大规模模型的训练需求。此外，数据集支持多种配置，用户可以根据需要选择特定的子集进行加载。

使用方法

Leopard-Instruct数据集的使用方法灵活多样，用户可以通过Hugging Face的datasets库进行加载。数据集支持两种加载方式：一种是加载特定子集，如webvision，另一种是加载所有子集。用户可以通过简单的代码实现数据的加载和处理，且支持在不自动下载和处理图像的情况下进行数据预览。数据集的使用文档详细，提供了代码示例和配置说明，便于用户快速上手。

背景与挑战

背景概述

Leopard-Instruct数据集由腾讯AI实验室于2024年推出，旨在解决多模态学习中的文本丰富多图像任务。该数据集包含925K个实例，其中739K专门设计用于处理多图像场景，涵盖了从图表、文档到网页截图等多种复杂视觉内容。通过该数据集，研究人员训练了Leopard-LLaVA和Leopard-Idefics2等模型，推动了视觉语言模型在文本丰富环境中的应用。该数据集的发布为多模态学习领域提供了重要的资源，促进了视觉与语言融合技术的进一步发展。

当前挑战

Leopard-Instruct数据集在构建和应用过程中面临多重挑战。首先，处理文本丰富多图像任务需要模型具备强大的跨模态理解能力，如何在视觉和语言之间建立有效的关联是一个核心难题。其次，数据集的构建涉及大量复杂视觉内容的标注，确保标注的准确性和一致性对数据质量至关重要。此外，多图像场景的多样性增加了模型训练的复杂性，如何在保持泛化能力的同时提升特定任务的性能仍需进一步探索。这些挑战不仅考验了数据集的构建技术，也对模型的训练和优化提出了更高的要求。

常用场景

经典使用场景

Leopard-Instruct数据集在文本丰富的多图像场景中展现了其独特价值。该数据集通过提供大量多图像实例，广泛应用于视觉语言模型的训练与评估。特别是在多模态任务中，Leopard-Instruct为模型提供了丰富的上下文信息，使其能够更好地理解和生成与图像相关的文本内容。

解决学术问题

Leopard-Instruct数据集有效解决了多模态学习中的关键问题，尤其是在文本与图像结合的复杂场景中。通过提供大量多图像实例，该数据集帮助研究者克服了传统单图像数据集在处理多图像任务时的局限性，推动了视觉语言模型在多图像理解与生成任务中的性能提升。

衍生相关工作

基于Leopard-Instruct数据集，研究者们开发了多个经典模型，如Leopard-LLaVA和Leopard-Idefics2。这些模型在多模态任务中表现出色，进一步推动了视觉语言模型的发展。此外，该数据集还激发了大量关于多图像理解与生成的研究，为相关领域提供了新的研究方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集