Leopard-Instruct|多模态数据集|指令微调数据集
收藏Leopard-Instruct 数据集概述
基本信息
- 许可证: Apache 2.0
- 语言: 英语
- 标签:
- multimodal
- instruction-following
- multi-image
- lmm
- vlm
- mllm
- 数据量: 100K<n<1M
数据集配置
- arxiv:
- 分割: train
- 路径: arxiv/*
- chartgemma:
- 分割: train
- 路径: chartgemma/*
- chartqa:
- 分割: train
- 路径: chartqa/*
- dude:
- 分割: train
- 路径: dude/*
- dvqa:
- 分割: train
- 路径: dvqa/*
- figureqa:
- 分割: train
- 路径: figureqa/*
- iconqa:
- 分割: train
- 路径: iconqa/*
- infographics:
- 分割: train
- 路径: infographics/*
- llavar:
- 分割: train
- 路径: llavar/*
- mapqa:
- 分割: train
- 路径: mapqa/*
- mathv360k:
- 分割: train
- 路径: mathv360k/*
- mind2web:
- 分割: train
- 路径: mind2web/*
- monkey:
- 分割: train
- 路径: monkey/*
- mpdocvqa:
- 分割: train
- 路径: mpdocvqa/*
- mplugdocreason:
- 分割: train
- 路径: mplugdocreason/*
- multichartqa:
- 分割: train
- 路径: multi_chartqa/*
- multihiertt:
- 分割: train
- 路径: multihiertt/*
- multitab:
- 分割: train
- 路径: multitab/*
- omniact:
- 分割: train
- 路径: omniact/*
- pew_chart:
- 分割: train
- 路径: pew_chart/*
- rico:
- 分割: train
- 路径: rico/*
- slidesgeneration:
- 分割: train
- 路径: slidesgeneration/*
- slideshare:
- 分割: train
- 路径: slideshare/*
- slidevqa:
- 分割: train
- 路径: slidevqa/*
- docvqa:
- 分割: train
- 路径: spdocvqa/*
- tab_entity:
- 分割: train
- 路径: tab_entity/*
- tabmwp:
- 分割: train
- 路径: tabmwp/*
- tat_dqa:
- 分割: train
- 路径: tat_dqa/*
- website_screenshots:
- 分割: train
- 路径: website_screenshots/*
- webui:
- 分割: train
- 路径: webui/*
- webvision:
- 分割: train
- 路径: webvision/*
数据集概述
- Leopard-Instruct 是一个大规模指令调优数据集,包含925K个实例,其中739K个实例专门设计用于文本丰富的多图像场景。
- 该数据集用于训练 Leopard-LLaVA 和 Leopard-Idefics2 模型。
数据加载
-
加载数据集而不自动下载和处理图像: python import datasets dataset = datasets.load_dataset("wyu1/Leopard-Instruct", "webvision")
-
加载所有子集的图像: python from datasets import get_dataset_config_names, load_dataset config_dataset = {} for config_name in get_dataset_config_names(): config_dataset[config_name] = load_dataset("wyu1/Leopard-Instruct", config_name)
引用
@article{jia2024leopard, title={LEOPARD: A Vision Language Model For Text-Rich Multi-Image Tasks}, author={Jia, Mengzhao and Yu, Wenhao and Ma, Kaixin and Fang, Tianqing and Zhang, Zhihan and Ouyang, Siru and Zhang, Hongming and Jiang, Meng and Yu, Dong}, journal={arXiv preprint arXiv:2410.01744}, year={2024} }

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
豆瓣数据集
该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录