csuhan/OneLLM_InstructionTuning

Name: csuhan/OneLLM_InstructionTuning
Creator: csuhan
Published: 2024-03-08 05:57:42
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/csuhan/OneLLM_InstructionTuning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集被转换为多轮对话格式，每个样本包含`id`、`image`和`conversations`等键。数据集涵盖了多种模态，包括图像、视频、音频、点云、深度图、法线图、IMU数据和fMRI数据。这些数据用于预训练和指令微调任务。下载链接部分提供了不同模态数据集的下载地址，指令微调数据部分详细说明了如何下载和存储这些数据。

提供机构：

csuhan

原始信息汇总

数据集概述

数据格式

所有微调数据被转换为多轮对话格式。.json文件包含一系列训练样本，每个样本包含以下键：id、image和conversations。例如： json {id: 000000033471, image: InstructionTuning/image/coco/train2017/000000033471.jpg, conversations: [{from: human, value: What are the colors of the bus in the image?}, {from: gpt, value: The bus in the image is white and red.}, {from: human, value: What feature can be seen on the back of the bus?}, {from: gpt, value: The back of the bus features an advertisement.}]}

下载链接

阶段	预训练	下载链接	指令微调	下载链接
模态	数据集	LAION-400M	LLaVA-mix665K	link
图像	LAION-COCO	link	COCO Caption	link
视频	WebVid-2.5M	link	MSRVTT Caption	link
			MSRVTT-QA	link
			Video Conversation	link
音频	WavCaps	link	AudioCaps	link
			Audio Conversation	link
点云	Cap3D	link	Point Conversation	link
深度图	CC3M	link	LLaVA-150K	link
法线图	CC3M	link	LLaVA-150K	link
IMU	Ego4D	link	Ego4D	link
fMRI	NSD	link	NSD	link

指令微调数据

注释下载： 请下载注释并将它们放在datasets/InstructionTuning目录下。

然后从上表下载原始数据集，并将它们放在相应的文件夹中。文件结构应如下：

datasets └── InstructionTuning ├── audio │ ├── audioset2 │ ├── audiocap_train.json │ ├── audiocap_val.json │ └── audio_conversation.json ├── depth_normal │ ├── depth │ ├── normal │ ├── llava_instruct_50k_depth.json │ └── llava_instruct_50k_normal.json ├── fmri │ ├── NSD │ └── fmri_fixed_train.json ├── image │ ├── coco │ ├── gqa │ ├── ocr_vqa │ ├── vg │ ├── cococap_train.json │ ├── llava_v1_5_mix665k_image.json │ └── llava_v1_5_mix665k_text.json ├── imu │ ├── ego4d │ └── imu_fixed_50k.json ├── point │ ├── pointllm/8192_npy │ └── pointllm_70k.json └── video ├── msr-vtt/MSR-VTT ├── msrvtt_cap_test.json ├── msrvtt_cap_trainval.json ├── msrvtt_vqa_test.json ├── msrvtt_vqa_train.json ├── msrvtt_vqa_val.json ├── video_complex_reasoning_10k.json ├── video_conversation_10k.json └── video_detail_10k.json

5,000+

优质数据集

54 个

任务类型

进入经典数据集