LLaVA-OneVision-Data-ru

Hugging Face2024-09-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/d0rj/LLaVA-OneVision-Data-ru

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-OneVision-Data-ru数据集是lmms-lab/LLaVA-OneVision-Data数据集的俄语翻译版本，包含多种配置，适用于图像生成、视觉问答和图像到文本等任务。数据集的标签包括合成数据和指令调优。

创建时间：

2024-09-20

原始信息汇总

LLaVA-OneVision-Data (Ru)

概述

语言创建者: 翻译
语言: 俄语
许可证: Apache 2.0
多语言性: 单语种
数据集大小: 1M < n < 10M
源数据集: lmms-lab/LLaVA-OneVision-Data
任务类别:
- 文本生成
- 视觉问答
- 图像到文本
标签:
- 合成
- 指令
- 指令调优

数据集配置

CLEVR-Math(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 792013503.16
  - 样本数: 5280
下载大小: 441303775
数据集大小: 792013503.16

FigureQA(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 465513781.625
  - 样本数: 17587
下载大小: 258637700
数据集大小: 465513781.625

GEOS(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 1572960.0
  - 样本数: 498
下载大小: 700182
数据集大小: 1572960.0

GeoQA+(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 56514340.75
  - 样本数: 17162
下载大小: 34067975
数据集大小: 56514340.75

MapQA(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 384745743.65
  - 样本数: 5225
下载大小: 215884780
数据集大小: 384745743.65

PMC-VQA(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 578025749.5
  - 样本数: 35948
下载大小: 328255626
数据集大小: 578025749.5

Super-CLEVR(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 2796403253.108
  - 样本数: 8642
下载大小: 1580572013
数据集大小: 2796403253.108

TabMWP(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 311220314.5
  - 样本数: 22452
下载大小: 174844170
数据集大小: 311220314.5

VizWiz(MathV360K)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 1171127381.896
  - 样本数: 6604
下载大小: 660933060
数据集大小: 1171127381.896

ai2d(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 439636703.375
  - 样本数: 2429
下载大小: 437640987
数据集大小: 439636703.375

ai2d(gpt4v)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 873311200.0
  - 样本数: 4864
下载大小: 862421974
数据集大小: 873311200.0

ai2d(internvl)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 1834631885.625
  - 样本数: 12403
下载大小: 527926688
数据集大小: 1834631885.625

allava_instruct_laion4v

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 6013438765.25
  - 样本数: 49990
下载大小: 5885459424
数据集大小: 6013438765.25

allava_instruct_vflan4v

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 2690023381.25
  - 样本数: 19990
下载大小: 2673787039
数据集大小: 2690023381.25

aokvqa(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 6898333285.25
  - 样本数: 16534
下载大小: 6894800650
数据集大小: 6898333285.25

chart2text(cauldron)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 1157154521.5
  - 样本数: 26956
下载大小: 1127541474
数据集大小: 1157154521.5

chartqa(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 817787997.2
  - 样本数: 18260
下载大小: 803726952
数据集大小: 817787997.2

chrome_writting

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 44686416.875
  - 样本数: 8825
下载大小: 39628540
数据集大小: 44686416.875

diagram_image_to_text(cauldron)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 18964131.0
  - 样本数: 295
下载大小: 18701832
数据集大小: 18964131.0

geo170k(align)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 215022142.75
  - 样本数: 60242
下载大小: 60277377
数据集大小: 215022142.75

geo170k(qa)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 298125679.125
  - 样本数: 67823
下载大小: 167601748
数据集大小: 298125679.125

geo3k

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 42882372.17
  - 样本数: 2091
下载大小: 41132437
数据集大小: 42882372.17

geomverse(cauldron)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 2268417050.452
  - 样本数: 9298
下载大小: 2212838596
数据集大小: 2268417050.452

hateful_memes(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 3057960349.63
  - 样本数: 8495
下载大小: 3055934483
数据集大小: 3057960349.63

hitab(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 162704271.64
  - 样本数: 2495
下载大小: 158101917
数据集大小: 162704271.64

hme100k

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 275616770.5
  - 样本数: 74492
下载大小: 241280865
数据集大小: 275616770.5

iam(cauldron)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 1132311547.434
  - 样本数: 5658
下载大小: 1128538402
数据集大小: 1132311547.434

iconqa(cauldron,llava_format)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 333523402.25
  - 样本数: 27302
下载大小: 327408736
数据集大小: 333523402.25

iiit5k

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source: string
分割:
- train
  - 字节数: 21968458.29
  - 样本数: 1990
下载大小: 21630391
数据集大小: 21968458.29

image_textualization(filtered)

特征:
- id: string
- image: image
- conversations: list
  - from: string
  - value: string
- data_source:

搜集汇总

数据集介绍

构建方式

LLaVA-OneVision-Data-ru数据集是基于原始LLaVA-OneVision-Data数据集构建的，通过翻译技术将其内容转化为俄语版本。该数据集涵盖了多个视觉问答和图像到文本生成任务，数据来源广泛，包括CLEVR-Math、FigureQA、GEOS等多个子集。每个子集均包含图像、对话文本及数据来源信息，确保了数据的多样性和丰富性。

特点

该数据集的特点在于其多模态特性，结合了图像与文本的交互信息，适用于视觉问答、图像描述生成等任务。数据集规模庞大，包含数百万条数据记录，覆盖了数学、地理、科学等多个领域。此外，数据集的对话格式设计使得其能够支持复杂的多轮对话任务，具有较强的任务适应性和扩展性。

使用方法

LLaVA-OneVision-Data-ru数据集可用于训练和评估多模态模型，特别是在俄语环境下的视觉问答和图像到文本生成任务中。用户可以通过加载数据集中的图像和对话文本，构建模型输入，并利用其丰富的标注信息进行模型训练。此外，数据集的分割设计（如训练集）为模型开发提供了清晰的实验框架，便于进行性能评估和对比分析。

背景与挑战

背景概述

LLaVA-OneVision-Data-ru数据集是基于LLaVA-OneVision-Data的俄语翻译版本，专注于多模态任务，如文本生成、视觉问答和图像到文本的转换。该数据集由lmms-lab团队创建，旨在通过多模态数据的结合，推动自然语言处理与计算机视觉的交叉研究。其核心研究问题在于如何通过图像与文本的交互，提升模型在复杂任务中的表现。该数据集的应用场景广泛，涵盖了从数学问题解答到地理信息处理等多个领域，对多模态学习的研究具有重要影响力。

当前挑战

LLaVA-OneVision-Data-ru数据集面临的挑战主要体现在两个方面。首先，多模态任务的复杂性要求模型能够同时理解图像和文本信息，这对模型的跨模态对齐能力提出了极高要求。其次，数据集的构建过程中，如何确保翻译的准确性和一致性，尤其是在涉及专业术语和复杂逻辑的领域（如数学和地理）时，是一个巨大的挑战。此外，数据集的规模庞大，如何高效处理和存储这些数据，同时保证数据的多样性和质量，也是构建过程中需要克服的关键问题。

常用场景

经典使用场景

LLaVA-OneVision-Data-ru数据集在视觉问答（VQA）和图像到文本生成任务中展现了其独特的价值。该数据集通过结合图像和文本对话的形式，为研究者提供了一个多模态交互的丰富场景，尤其是在数学问题解答、地理信息解析和图表理解等领域，能够有效支持模型的训练与评估。

衍生相关工作

基于LLaVA-OneVision-Data-ru数据集，研究者已经开发了多种多模态模型，如视觉问答系统和图像到文本生成模型。这些模型在多个基准测试中表现出色，推动了多模态学习领域的发展。此外，该数据集还启发了更多关于图像与文本联合理解的研究，为后续工作提供了坚实的基础。

数据集最近研究