Multi-modal-Self-instruct
收藏Hugging Face2024-07-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct
下载链接
链接失效反馈官方服务:
资源简介:
Multi-Modal Self-Instruct数据集利用大型语言模型及其代码能力,在日常场景中合成大量抽象图像和视觉推理指令。该基准包含八个视觉场景,共有11,193条指令,包括图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。此外,我们还使用62,476条合成图表、表格和道路图指令来微调LMM,结果显示在图表理解和地图导航性能上有所提升,并展示了其他视觉推理任务的潜在益处。
创建时间:
2024-07-08
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 数据规模: 1K < n < 40K
- 任务类别: 多选题、问答、视觉问答
- 任务ID: 多选题问答、封闭领域问答、开放领域问答、视觉问答
- 标签: 多模态问答、图表问答、算术推理、统计推理、逻辑推理、合成场景、多类分类、图表、绘图、表格、数学、函数绘图、抽象场景、谜题测试、数值常识、代数推理
- 配置: 默认配置
- 数据文件:
- 测试集:
data/test-* - 训练集:
data/train-*
- 测试集:
- 数据文件:
数据集信息
- 特征:
question_id: 字符串question: 字符串image_path: 字符串image: 图像answer: 字符串
- 分割:
- 测试集: 11193个样本
- 训练集: 64796个样本
数据集描述
- 多模态自指导数据集利用大型语言模型及其代码能力,在日常场景中合成大量抽象图像和视觉推理指令。该基准包含八个视觉场景,共11,193条指令:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。此外,我们还使用64,796条合成图表、表格和道路图指令来微调一个大型多模态模型(LMM)。结果显示,图表理解和地图导航性能有所提高,同时也展示了其他视觉推理任务的潜在益处。
数据集示例
- 示例包括:图表、表格、模拟地图、仪表板、流程图、关系图、平面图、视觉谜题。
数据集使用
- 数据下载:
- 训练集: 64,796条合成图表、表格和道路图指令。
- 测试集: 11,193条指令,涵盖八个视觉场景。
- 数据格式: 遵循LLaVA-1.5数据格式。
- 评估: 提供自动评估管道来评估模型。
许可证
- 新贡献的数据集遵循CC BY-SA 4.0许可证。
- 八个基准测试集主要设计为测试集,三个训练集可作为训练集使用。
- 商业用途:八个基准测试集可用于商业用途作为测试集,但禁止将其作为训练集使用。
搜集汇总
数据集介绍

构建方式
Multi-modal-Self-instruct数据集通过利用大型语言模型及其代码生成能力,合成了大量抽象图像和视觉推理指令,涵盖了日常场景中的多种视觉任务。该数据集包含八个视觉场景,共计11,193条指令,涵盖了图表、表格、模拟地图、仪表盘、流程图、关系图、平面布局和视觉谜题等。此外,还使用了64,796条合成的图表、表格和道路地图指令,用于微调多模态语言模型,以提升其在图表理解和地图导航等任务中的表现。
特点
该数据集的特点在于其多样性和复杂性,涵盖了多种视觉推理任务,包括图表理解、表格分析、地图导航等。数据集中的图像和指令均为合成生成,确保了数据的多样性和可控性。此外,数据集还提供了丰富的任务类型,如多子图比较、平面布局推理等,能够有效评估模型在复杂视觉推理任务中的表现。数据集分为训练集和测试集,训练集包含64,796条指令,测试集包含11,193条指令,适用于多模态语言模型的训练和评估。
使用方法
数据集的使用方法包括数据下载、数据格式解析和模型评估。用户可以通过Huggingface Datasets库直接下载数据集,数据集以LLaVA-1.5的数据格式存储,包含问题ID、问题文本、图像路径、图像和答案等信息。模型评估部分提供了自动化的评估脚本,用户可以通过运行`eval_model.py`和`eval_vqa.py`脚本,对模型在特定任务上的表现进行评估。评估脚本支持对图表、表格、仪表盘、流程图、关系图、平面布局和视觉谜题等任务的准确性测试。
背景与挑战
背景概述
Multi-modal-Self-instruct数据集由Wenqi Zhang等人于2024年提出,旨在通过大规模语言模型及其代码生成能力,合成大量抽象图像和视觉推理指令,涵盖日常场景中的多种视觉任务。该数据集包含八种视觉场景,如图表、表格、模拟地图、仪表盘、流程图、关系图、平面布局和视觉谜题,共计11,193条指令。此外,数据集还提供了64,796条合成的图表、表格和道路地图指令,用于微调多模态语言模型。该数据集的发布显著提升了图表理解和地图导航等视觉推理任务的性能,并为相关领域的研究提供了新的基准。
当前挑战
Multi-modal-Self-instruct数据集在构建过程中面临多重挑战。首先,生成高质量的抽象图像和对应的视觉推理指令需要复杂的多模态融合技术,确保图像与文本之间的语义一致性。其次,数据集的多样性和复杂性要求模型具备强大的泛化能力,以应对不同场景下的推理任务。此外,数据集的规模庞大,如何高效地存储、处理和评估这些数据也是一个技术难题。最后,数据集的商业使用受到限制,仅允许作为测试集使用,这在一定程度上限制了其在工业界的广泛应用。
常用场景
经典使用场景
Multi-modal-Self-instruct数据集在视觉推理和多模态问答领域具有广泛的应用。该数据集通过合成大量抽象图像和视觉推理指令,涵盖了图表、表格、模拟地图、仪表盘、流程图、关系图、平面布局和视觉谜题等多种场景。研究人员可以利用该数据集进行多模态模型的训练和评估,特别是在视觉理解和推理任务中,数据集提供了丰富的测试和训练样本,帮助模型提升在复杂视觉场景中的表现。
实际应用
在实际应用中,Multi-modal-Self-instruct数据集可以用于开发智能助手、自动化数据分析工具以及教育领域的智能辅导系统。例如,在商业智能领域,该数据集可以帮助开发出能够自动解析图表和仪表盘的AI工具,提升数据分析的效率。在教育领域,数据集可以用于设计基于视觉推理的智能辅导系统,帮助学生更好地理解复杂的概念和问题。
衍生相关工作
Multi-modal-Self-instruct数据集已经衍生出多项经典研究工作,特别是在多模态大模型(LMM)的微调和评估方面。基于该数据集的研究工作主要集中在提升模型在视觉推理任务中的表现,例如图表理解、地图导航和逻辑推理等。此外,该数据集还被用于开发新的评估框架和基准测试工具,进一步推动了多模态学习领域的技术进步。
以上内容由遇见数据集搜集并总结生成



