five

csuhan/OneLLM_InstructionTuning

收藏
Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/csuhan/OneLLM_InstructionTuning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集被转换为多轮对话格式,每个样本包含`id`、`image`和`conversations`等键。数据集涵盖了多种模态,包括图像、视频、音频、点云、深度图、法线图、IMU数据和fMRI数据。这些数据用于预训练和指令微调任务。下载链接部分提供了不同模态数据集的下载地址,指令微调数据部分详细说明了如何下载和存储这些数据。

该数据集被转换为多轮对话格式,每个样本包含`id`、`image`和`conversations`等键。数据集涵盖了多种模态,包括图像、视频、音频、点云、深度图、法线图、IMU数据和fMRI数据。这些数据用于预训练和指令微调任务。下载链接部分提供了不同模态数据集的下载地址,指令微调数据部分详细说明了如何下载和存储这些数据。
提供机构:
csuhan
原始信息汇总

数据集概述

数据格式

所有微调数据被转换为多轮对话格式。.json文件包含一系列训练样本,每个样本包含以下键:idimageconversations。例如: json {id: 000000033471, image: InstructionTuning/image/coco/train2017/000000033471.jpg, conversations: [{from: human, value: What are the colors of the bus in the image?}, {from: gpt, value: The bus in the image is white and red.}, {from: human, value: What feature can be seen on the back of the bus?}, {from: gpt, value: The back of the bus features an advertisement.}]}

下载链接

阶段 预训练 下载链接 指令微调 下载链接
模态 数据集 LAION-400M LLaVA-mix665K link
图像 LAION-COCO link COCO Caption link
视频 WebVid-2.5M link MSRVTT Caption link
MSRVTT-QA link
Video Conversation link
音频 WavCaps link AudioCaps link
Audio Conversation link
点云 Cap3D link Point Conversation link
深度图 CC3M link LLaVA-150K link
法线图 CC3M link LLaVA-150K link
IMU Ego4D link Ego4D link
fMRI NSD link NSD link

指令微调数据

注释下载: 请下载注释并将它们放在datasets/InstructionTuning目录下。

然后从上表下载原始数据集,并将它们放在相应的文件夹中。文件结构应如下:

datasets └── InstructionTuning ├── audio │ ├── audioset2 │ ├── audiocap_train.json │ ├── audiocap_val.json │ └── audio_conversation.json ├── depth_normal │ ├── depth │ ├── normal │ ├── llava_instruct_50k_depth.json │ └── llava_instruct_50k_normal.json ├── fmri │ ├── NSD │ └── fmri_fixed_train.json ├── image │ ├── coco │ ├── gqa │ ├── ocr_vqa │ ├── vg │ ├── cococap_train.json │ ├── llava_v1_5_mix665k_image.json │ └── llava_v1_5_mix665k_text.json ├── imu │ ├── ego4d │ └── imu_fixed_50k.json ├── point │ ├── pointllm/8192_npy │ └── pointllm_70k.json └── video ├── msr-vtt/MSR-VTT ├── msrvtt_cap_test.json ├── msrvtt_cap_trainval.json ├── msrvtt_vqa_test.json ├── msrvtt_vqa_train.json ├── msrvtt_vqa_val.json ├── video_complex_reasoning_10k.json ├── video_conversation_10k.json └── video_detail_10k.json

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作