zwq2018/Multi-modal-Self-instruct
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/zwq2018/Multi-modal-Self-instruct
下载链接
链接失效反馈官方服务:
资源简介:
Multi-modal-Self-instruct数据集利用大型语言模型及其代码能力,合成了大量抽象图像和视觉推理指令,涵盖了日常场景中的多种视觉场景。该基准包含八个视觉场景,共11,193条指令:图表、表格、模拟地图、仪表板、流程图、关系图、平面布局和视觉谜题。此外,还使用了64,796条合成的图表、表格和道路地图指令来微调一个大型语言模型。结果表明,该数据集在图表理解和地图导航任务中表现出了改进,并且对其他视觉推理任务也有潜在的益处。
The Multi-Modal Self-Instruct dataset utilizes large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. This benchmark contains eight visual scenarios with 11,193 instructions: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. Besides, we also use 64,796 synthetic chart, table, and road map instructions to fine-tune an LMM. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks.
提供机构:
zwq2018
原始信息汇总
Multi-modal-Self-instruct 数据集概述
基本信息
- 语言: 英语
- 数据量: 1K<n<40K
- 任务类别:
- 多选题
- 问答
- 视觉问答
- 任务ID:
- 多选题问答
- 封闭领域问答
- 开放领域问答
- 视觉问答
- 标签:
- 多模态问答
- 图表问答
- 算术推理
- 统计推理
- 逻辑推理
- 合成场景
- 多类分类
- 图表
- 绘图
- 表格
- 数学
- 函数绘图
- 抽象场景
- 谜题测试
- 数值常识
- 代数推理
配置
- 默认配置:
- 测试集:
data/test-* - 训练集:
data/train-*
- 测试集:
数据集信息
- 特征:
question_id: 字符串question: 字符串image_path: 字符串image: 图像answer: 字符串
- 分割:
- 测试集: 11193个样本
- 训练集: 64796个样本
数据集描述
- 多模态自指令数据集利用大型语言模型及其代码能力,合成大量抽象图像和日常场景中的视觉推理指令。
- 包含八个视觉场景: 图表、表格、模拟地图、仪表盘、流程图、关系图、平面图和视觉谜题。
- 训练集: 64,796个合成图表、表格和道路图指令。
- 测试集: 11,193个指令,涵盖八个视觉场景。
数据下载
- 训练集: 64,796个合成图表、表格和道路图指令。
- 测试集: 11,193个指令,涵盖八个视觉场景。
- 下载方式: 可通过Huggingface Datasets库下载。
数据格式
- 训练数据格式: 参考LLaVA的说明。
- 测试数据格式: 参考LLaVA的说明。
- 数据结构:
question_id: 问题文本image_path: 图像文件路径question: 对应图像的问题answer: 问题的正确答案image: 对应的图像
评估
- 自动评估: 提供评估脚本
eval_model.py和eval_vqa.py。
许可证
- 新贡献: CC BY-SA 4.0许可证。
- 用途: 八个基准主要设计为测试集,三个训练集可用作训练集。
- 商业用途: 八个基准可作为测试集用于商业用途,但禁止用作训练集。
引用
@article{zhang2024multimodal, title={Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model}, author={Zhang, Wenqi and Cheng, Zhenglin and He, Yuanyu and Wang, Mengna and Shen, Yongliang and Tan, Zeqi and Hou, Guiyang and He, Mingqian and Ma, Yanna and Lu, Weiming and others}, journal={arXiv preprint arXiv:2407.07053}, year={2024} }



