damerajee/ShareGPT4V-hin

Name: damerajee/ShareGPT4V-hin
Creator: damerajee
Published: 2024-05-16 12:40:01
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/damerajee/ShareGPT4V-hin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在增强大型多模态模型（LMMs）在预训练和监督微调阶段的模态对齐和细粒度视觉概念感知能力，以接近GPT4-Vision的能力。数据集包含对话和图像特征，对话部分包括来源和内容，图像部分为字符串类型。数据集为印地语翻译版本，来源于ShareGPT4V，并仅用于微调。数据集的大小为250800052字节，包含101971个训练样本。数据集的许可为Attribution-NonCommercial 4.0 International，并需遵守OpenAI的使用政策。

提供机构：

damerajee

原始信息汇总

数据集概述

数据集基本信息

名称: 未提供具体名称
语言: 印地语（hi）
任务类别: 视觉问答（visual-question-answering）、问答（question-answering）
大小类别: 10万<n<100万

数据集内容

特征:
- conversations: 包含两个子特征
  - from: 数据类型为字符串
  - value: 数据类型为字符串
- image: 数据类型为字符串
分割:
- train: 包含101,971个示例，数据大小为250,800,052字节
下载大小: 85,011,953字节
数据集大小: 250,800,052字节

数据集配置

默认配置:
- 数据文件路径: data/train-*

许可信息

许可证: Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)

图像统计

图像来源及数量:
- coco: 50,025张
- llava: 29,953张
- sam: 19,995张
- wikiart: 500张
- web-landmark: 500张
- share_textvqa: 500张
- web-celebrity: 498张

数据集用途

主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者
使用目的: 用于增强大型多模态模型中的模态对齐和细粒度视觉概念感知，特别是在预训练和监督微调阶段，旨在推动模型向GPT4-Vision能力发展。

5,000+

优质数据集

54 个

任务类型

进入经典数据集