deepvk/LLaVA-Instruct-ru

Name: deepvk/LLaVA-Instruct-ru
Creator: deepvk
Published: 2024-05-22 11:32:10
License: 暂无描述

Hugging Face2024-05-22 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/deepvk/LLaVA-Instruct-ru

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-Instruct-ru数据集是LLaVA instruct数据集的俄语版本，遵循原始管道生成数据，并收集了包含`conversation`和`complex_reasoning`类型的指令。每个数据行包含四个字段：`type`、`conversations`、`id`和`image`。`conversation`对话包含多个话语，人类提问并澄清之前的回答，GPT回答问题。`complex_reasoning`对话包含一个人类提问和GPT的详细推理回答。数据集的分割与COCO 2014的训练/验证分割相对应。数据通过`gpt-3.5-turbo-0125`生成，并经过三个阶段的数据过滤。

提供机构：

deepvk

原始信息汇总

LLaVA-Instruct-ru

数据集概述

任务类别: 视觉问答（Visual Question Answering）
语言: 俄语（ru）
数据规模: 100K<n<1M
许可证: Apache-2.0

数据结构

每个数据行包含以下字段：

type: 对话类型，包括 conversation 或 complex_reasoning
conversations: 一个包含多个字典的列表，每个字典包含 from 和 value 键
id: 图像标识符，对应COCO数据集，非唯一
image: 图像在COCO数据集中的路径

对话类型

conversation: 包含多个轮次的对话，人类提问并澄清先前答案，GPT回答问题。对话中的每个发言都是有序的，后续发言可能引用先前的发言。在大多数对话的最后一轮，GPT尝试对人类设定的话题进行推理。
complex_reasoning: 包含一个人类的单一问题和一个GPT的详细回答，包含推理过程。

数据处理

训练/验证分割: 对应COCO 2014的训练/验证分割
训练集: 所有第一轮发言以 <image> 标签开始
验证集: 没有 <image> 标签
数据生成模型: 使用 gpt-3.5-turbo-0125
发言来源: 所有发言均由模型生成，包括人类发言

数据过滤

数据过滤分为三个阶段：

移除不符合对话结构的所有行
移除包含拼写错误的所有发言及其后续发言
移除根据启发式方法检测到的频繁错误的行

引用

@misc{liu2023llava, title={Visual Instruction Tuning}, author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae}, publisher={NeurIPS}, year={2023}, }

@misc{deepvk2024llava_instruct_ru, title={LLaVA-Instruct-ru}, author={Belopolskih, Daniil and Spirin, Egor}, url={https://huggingface.co/datasets/deepvk/LLaVA-Instruct-ru/}, publisher={Hugging Face} year={2024}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集