damerajee/ShareGPT4V-hin
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/damerajee/ShareGPT4V-hin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在增强大型多模态模型(LMMs)在预训练和监督微调阶段的模态对齐和细粒度视觉概念感知能力,以接近GPT4-Vision的能力。数据集包含对话和图像特征,对话部分包括来源和内容,图像部分为字符串类型。数据集为印地语翻译版本,来源于ShareGPT4V,并仅用于微调。数据集的大小为250800052字节,包含101971个训练样本。数据集的许可为Attribution-NonCommercial 4.0 International,并需遵守OpenAI的使用政策。
该数据集旨在增强大型多模态模型(LMMs)在预训练和监督微调阶段的模态对齐和细粒度视觉概念感知能力,以接近GPT4-Vision的能力。数据集包含对话和图像特征,对话部分包括来源和内容,图像部分为字符串类型。数据集为印地语翻译版本,来源于ShareGPT4V,并仅用于微调。数据集的大小为250800052字节,包含101971个训练样本。数据集的许可为Attribution-NonCommercial 4.0 International,并需遵守OpenAI的使用政策。
提供机构:
damerajee
原始信息汇总
数据集概述
数据集基本信息
- 名称: 未提供具体名称
- 语言: 印地语(hi)
- 任务类别: 视觉问答(visual-question-answering)、问答(question-answering)
- 大小类别: 10万<n<100万
数据集内容
-
特征:
- conversations: 包含两个子特征
- from: 数据类型为字符串
- value: 数据类型为字符串
- image: 数据类型为字符串
- conversations: 包含两个子特征
-
分割:
- train: 包含101,971个示例,数据大小为250,800,052字节
-
下载大小: 85,011,953字节
-
数据集大小: 250,800,052字节
数据集配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
许可信息
- 许可证: Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)
图像统计
- 图像来源及数量:
- coco: 50,025张
- llava: 29,953张
- sam: 19,995张
- wikiart: 500张
- web-landmark: 500张
- share_textvqa: 500张
- web-celebrity: 498张
数据集用途
- 主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者
- 使用目的: 用于增强大型多模态模型中的模态对齐和细粒度视觉概念感知,特别是在预训练和监督微调阶段,旨在推动模型向GPT4-Vision能力发展。



