LLaVA-OneVision-Data-ru
收藏Hugging Face2024-09-23 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/d0rj/LLaVA-OneVision-Data-ru
下载链接
链接失效反馈官方服务:
资源简介:
LLaVA-OneVision-Data-ru数据集是lmms-lab/LLaVA-OneVision-Data数据集的俄语翻译版本,包含多种配置,适用于图像生成、视觉问答和图像到文本等任务。数据集的标签包括合成数据和指令调优。
创建时间:
2024-09-20
原始信息汇总
LLaVA-OneVision-Data (Ru)
概述
- 语言创建者: 翻译
- 语言: 俄语
- 许可证: Apache 2.0
- 多语言性: 单语种
- 数据集大小: 1M < n < 10M
- 源数据集: lmms-lab/LLaVA-OneVision-Data
- 任务类别:
- 文本生成
- 视觉问答
- 图像到文本
- 标签:
- 合成
- 指令
- 指令调优
数据集配置
CLEVR-Math(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 792013503.16
- 样本数: 5280
- train
- 下载大小: 441303775
- 数据集大小: 792013503.16
FigureQA(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 465513781.625
- 样本数: 17587
- train
- 下载大小: 258637700
- 数据集大小: 465513781.625
GEOS(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 1572960.0
- 样本数: 498
- train
- 下载大小: 700182
- 数据集大小: 1572960.0
GeoQA+(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 56514340.75
- 样本数: 17162
- train
- 下载大小: 34067975
- 数据集大小: 56514340.75
MapQA(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 384745743.65
- 样本数: 5225
- train
- 下载大小: 215884780
- 数据集大小: 384745743.65
PMC-VQA(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 578025749.5
- 样本数: 35948
- train
- 下载大小: 328255626
- 数据集大小: 578025749.5
Super-CLEVR(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 2796403253.108
- 样本数: 8642
- train
- 下载大小: 1580572013
- 数据集大小: 2796403253.108
TabMWP(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 311220314.5
- 样本数: 22452
- train
- 下载大小: 174844170
- 数据集大小: 311220314.5
VizWiz(MathV360K)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 1171127381.896
- 样本数: 6604
- train
- 下载大小: 660933060
- 数据集大小: 1171127381.896
ai2d(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 439636703.375
- 样本数: 2429
- train
- 下载大小: 437640987
- 数据集大小: 439636703.375
ai2d(gpt4v)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 873311200.0
- 样本数: 4864
- train
- 下载大小: 862421974
- 数据集大小: 873311200.0
ai2d(internvl)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 1834631885.625
- 样本数: 12403
- train
- 下载大小: 527926688
- 数据集大小: 1834631885.625
allava_instruct_laion4v
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 6013438765.25
- 样本数: 49990
- train
- 下载大小: 5885459424
- 数据集大小: 6013438765.25
allava_instruct_vflan4v
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 2690023381.25
- 样本数: 19990
- train
- 下载大小: 2673787039
- 数据集大小: 2690023381.25
aokvqa(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 6898333285.25
- 样本数: 16534
- train
- 下载大小: 6894800650
- 数据集大小: 6898333285.25
chart2text(cauldron)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 1157154521.5
- 样本数: 26956
- train
- 下载大小: 1127541474
- 数据集大小: 1157154521.5
chartqa(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 817787997.2
- 样本数: 18260
- train
- 下载大小: 803726952
- 数据集大小: 817787997.2
chrome_writting
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 44686416.875
- 样本数: 8825
- train
- 下载大小: 39628540
- 数据集大小: 44686416.875
diagram_image_to_text(cauldron)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 18964131.0
- 样本数: 295
- train
- 下载大小: 18701832
- 数据集大小: 18964131.0
geo170k(align)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 215022142.75
- 样本数: 60242
- train
- 下载大小: 60277377
- 数据集大小: 215022142.75
geo170k(qa)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 298125679.125
- 样本数: 67823
- train
- 下载大小: 167601748
- 数据集大小: 298125679.125
geo3k
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 42882372.17
- 样本数: 2091
- train
- 下载大小: 41132437
- 数据集大小: 42882372.17
geomverse(cauldron)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 2268417050.452
- 样本数: 9298
- train
- 下载大小: 2212838596
- 数据集大小: 2268417050.452
hateful_memes(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 3057960349.63
- 样本数: 8495
- train
- 下载大小: 3055934483
- 数据集大小: 3057960349.63
hitab(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 162704271.64
- 样本数: 2495
- train
- 下载大小: 158101917
- 数据集大小: 162704271.64
hme100k
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 275616770.5
- 样本数: 74492
- train
- 下载大小: 241280865
- 数据集大小: 275616770.5
iam(cauldron)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 1132311547.434
- 样本数: 5658
- train
- 下载大小: 1128538402
- 数据集大小: 1132311547.434
iconqa(cauldron,llava_format)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 333523402.25
- 样本数: 27302
- train
- 下载大小: 327408736
- 数据集大小: 333523402.25
iiit5k
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source: string
- 分割:
- train
- 字节数: 21968458.29
- 样本数: 1990
- train
- 下载大小: 21630391
- 数据集大小: 21968458.29
image_textualization(filtered)
- 特征:
- id: string
- image: image
- conversations: list
- from: string
- value: string
- data_source:
搜集汇总
数据集介绍

构建方式
LLaVA-OneVision-Data-ru数据集是基于原始LLaVA-OneVision-Data数据集构建的,通过翻译技术将其内容转化为俄语版本。该数据集涵盖了多个视觉问答和图像到文本生成任务,数据来源广泛,包括CLEVR-Math、FigureQA、GEOS等多个子集。每个子集均包含图像、对话文本及数据来源信息,确保了数据的多样性和丰富性。
特点
该数据集的特点在于其多模态特性,结合了图像与文本的交互信息,适用于视觉问答、图像描述生成等任务。数据集规模庞大,包含数百万条数据记录,覆盖了数学、地理、科学等多个领域。此外,数据集的对话格式设计使得其能够支持复杂的多轮对话任务,具有较强的任务适应性和扩展性。
使用方法
LLaVA-OneVision-Data-ru数据集可用于训练和评估多模态模型,特别是在俄语环境下的视觉问答和图像到文本生成任务中。用户可以通过加载数据集中的图像和对话文本,构建模型输入,并利用其丰富的标注信息进行模型训练。此外,数据集的分割设计(如训练集)为模型开发提供了清晰的实验框架,便于进行性能评估和对比分析。
背景与挑战
背景概述
LLaVA-OneVision-Data-ru数据集是基于LLaVA-OneVision-Data的俄语翻译版本,专注于多模态任务,如文本生成、视觉问答和图像到文本的转换。该数据集由lmms-lab团队创建,旨在通过多模态数据的结合,推动自然语言处理与计算机视觉的交叉研究。其核心研究问题在于如何通过图像与文本的交互,提升模型在复杂任务中的表现。该数据集的应用场景广泛,涵盖了从数学问题解答到地理信息处理等多个领域,对多模态学习的研究具有重要影响力。
当前挑战
LLaVA-OneVision-Data-ru数据集面临的挑战主要体现在两个方面。首先,多模态任务的复杂性要求模型能够同时理解图像和文本信息,这对模型的跨模态对齐能力提出了极高要求。其次,数据集的构建过程中,如何确保翻译的准确性和一致性,尤其是在涉及专业术语和复杂逻辑的领域(如数学和地理)时,是一个巨大的挑战。此外,数据集的规模庞大,如何高效处理和存储这些数据,同时保证数据的多样性和质量,也是构建过程中需要克服的关键问题。
常用场景
经典使用场景
LLaVA-OneVision-Data-ru数据集在视觉问答(VQA)和图像到文本生成任务中展现了其独特的价值。该数据集通过结合图像和文本对话的形式,为研究者提供了一个多模态交互的丰富场景,尤其是在数学问题解答、地理信息解析和图表理解等领域,能够有效支持模型的训练与评估。
衍生相关工作
基于LLaVA-OneVision-Data-ru数据集,研究者已经开发了多种多模态模型,如视觉问答系统和图像到文本生成模型。这些模型在多个基准测试中表现出色,推动了多模态学习领域的发展。此外,该数据集还启发了更多关于图像与文本联合理解的研究,为后续工作提供了坚实的基础。
数据集最近研究
最新研究方向
近年来,LLaVA-OneVision-Data-ru数据集在视觉问答(VQA)和图像到文本生成领域引起了广泛关注。该数据集通过结合图像与多轮对话的形式,为模型提供了丰富的上下文信息,使其能够更好地理解复杂的视觉场景并生成准确的文本描述。特别是在数学视觉问答(MathVQA)任务中,该数据集的应用推动了模型在解决数学问题方面的能力,尤其是在涉及图表、地图和几何图形的场景中。随着多模态大模型的快速发展,LLaVA-OneVision-Data-ru数据集为研究如何将视觉信息与自然语言处理相结合提供了重要的实验平台,进一步推动了跨模态理解技术的发展。
以上内容由遇见数据集搜集并总结生成



