five

damerajee/ShareGPT4V-hin

收藏
Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/damerajee/ShareGPT4V-hin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在增强大型多模态模型(LMMs)在预训练和监督微调阶段的模态对齐和细粒度视觉概念感知能力,以接近GPT4-Vision的能力。数据集包含对话和图像特征,对话部分包括来源和内容,图像部分为字符串类型。数据集为印地语翻译版本,来源于ShareGPT4V,并仅用于微调。数据集的大小为250800052字节,包含101971个训练样本。数据集的许可为Attribution-NonCommercial 4.0 International,并需遵守OpenAI的使用政策。

该数据集旨在增强大型多模态模型(LMMs)在预训练和监督微调阶段的模态对齐和细粒度视觉概念感知能力,以接近GPT4-Vision的能力。数据集包含对话和图像特征,对话部分包括来源和内容,图像部分为字符串类型。数据集为印地语翻译版本,来源于ShareGPT4V,并仅用于微调。数据集的大小为250800052字节,包含101971个训练样本。数据集的许可为Attribution-NonCommercial 4.0 International,并需遵守OpenAI的使用政策。
提供机构:
damerajee
原始信息汇总

数据集概述

数据集基本信息

  • 名称: 未提供具体名称
  • 语言: 印地语(hi)
  • 任务类别: 视觉问答(visual-question-answering)、问答(question-answering)
  • 大小类别: 10万<n<100万

数据集内容

  • 特征:

    • conversations: 包含两个子特征
      • from: 数据类型为字符串
      • value: 数据类型为字符串
    • image: 数据类型为字符串
  • 分割:

    • train: 包含101,971个示例,数据大小为250,800,052字节
  • 下载大小: 85,011,953字节

  • 数据集大小: 250,800,052字节

数据集配置

  • 默认配置:
    • 数据文件路径: data/train-*

许可信息

  • 许可证: Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)

图像统计

  • 图像来源及数量:
    • coco: 50,025张
    • llava: 29,953张
    • sam: 19,995张
    • wikiart: 500张
    • web-landmark: 500张
    • share_textvqa: 500张
    • web-celebrity: 498张

数据集用途

  • 主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者
  • 使用目的: 用于增强大型多模态模型中的模态对齐和细粒度视觉概念感知,特别是在预训练和监督微调阶段,旨在推动模型向GPT4-Vision能力发展。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作