five

zixianma/mnms|多模态学习数据集|任务规划数据集

收藏
hugging_face2024-07-07 更新2024-04-19 收录
多模态学习
任务规划
下载链接:
https://hf-mirror.com/datasets/zixianma/mnms
下载链接
链接失效反馈
资源简介:
m&ms数据集包含4,000多个多步多模态任务,涉及33种工具,包括13种多模态模型、9种公共API和11种图像处理模块。对于每个任务查询,数据集提供了使用这些工具自动生成的任务计划。此外,数据集还提供了一个高质量的子集,包含1,565个人工验证的任务计划和882个人工验证、过滤且可正确执行的计划。该数据集主要用于评估大型语言模型(LLM)代理在多步多模态任务中的工具使用能力。
提供机构:
zixianma
原始信息汇总

数据集概述

数据集名称: m&ms

数据集描述: m&ms是一个包含多步骤多模态任务及其对应任务计划的数据集。该数据集包含超过4,000个多步骤多模态任务,涉及33种工具,包括13种多模态模型、9个公共API和11个图像处理模块。此外,还提供了一个高质量的1,565个人工验证的任务计划和882个人工验证、过滤并可正确执行的计划。

数据集用途: 该数据集旨在评估大型语言模型(LLM)代理在多步骤多模态任务中使用工具的能力。

数据集文件:

  • test_human_verified_filtered.json
  • test_human_verified.json
  • test_raw.json

数据集语言: 英语 (en)

数据集规模: 1K<n<10K

许可证: MIT

数据集详细信息

任务类别: 文本生成

数据集来源:

数据集生成: 数据输入来自多个现有数据集,包括ImageNet, sst2, SQUAD, C4, CNN daily news, COCO, COCO-Text v2.0, GQA, Visual Genome, MagicBrush, 和librispeech。

数据集限制

  • 用户请求可能存在偏差,因为它们是由GPT-4生成的,并不一定代表真实世界的用户请求。
  • 任务计划都是顺序的,需要1-3个工具来解决。

引用信息

BibTeX:

@misc{ma2024mms, title={m&ms: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks}, author={Zixian Ma and Weikai Huang and Jieyu Zhang and Tanmay Gupta and Ranjay Krishna}, year={2024}, eprint={2403.11085}, archivePrefix={arXiv}, primaryClass={cs.CV} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
m&ms数据集的构建基于多步骤多模态任务的需求,涵盖了33种工具,包括13种多模态模型、9种公共API和11种图像处理模块。每个任务查询都配备了自动生成的计划,这些计划是基于实际工具集的。此外,数据集还包含一个高质量子集,其中包括1,565个经过人工验证的任务计划和882个经过人工验证、过滤且可正确执行的计划。数据输入来源于多个现有数据集,如ImageNet、SQUAD等,确保了数据的多样性和广泛性。
特点
m&ms数据集的显著特点在于其多步骤多模态任务的复杂性和多样性。该数据集不仅包含了多种工具的使用,还特别强调了任务计划的生成和验证过程。通过提供自动生成的计划和人工验证的高质量子集,m&ms数据集为评估大型语言模型(LLM)在工具使用能力方面的表现提供了坚实的基础。此外,数据集的构建过程确保了任务的多样性和实际应用的相关性。
使用方法
m&ms数据集主要用于评估大型语言模型(LLM)在多步骤多模态任务中的工具使用能力。使用者可以通过获取LLM代理对用户请求的计划预测,并将其与数据集中的标签计划或代码进行对比,从而进行评估。数据集的直接使用场景包括但不限于模型性能测试和工具使用策略的验证。需要注意的是,该数据集不适用于模型训练,仅用于评估和验证目的。
背景与挑战
背景概述
m&ms数据集由Zixian Ma等人于2024年创建,隶属于RAIVNLab机构。该数据集专注于多步骤多模态任务及其相应的任务计划,旨在评估大型语言模型(LLM)在工具使用能力方面的表现。m&ms数据集包含了超过4000个涉及33种工具的多步骤多模态任务,其中包括13种多模态模型、9个公共API和11个图像处理模块。这些任务的查询均配备了自动生成的计划,并进一步提供了1565个经过人工验证的高质量任务计划和882个经过验证、过滤且可正确执行的计划。m&ms数据集的推出,为多模态任务处理领域提供了一个重要的基准,推动了LLM在复杂任务规划与执行方面的研究进展。
当前挑战
m&ms数据集在构建过程中面临多项挑战。首先,用户请求的生成依赖于GPT-4,这可能导致请求内容与真实世界用户需求存在偏差。其次,所有任务计划均为顺序执行,且每个任务需使用1-3个工具,这种设计限制了任务的多样性和复杂性。此外,数据集的构建涉及从多个现有数据集(如ImageNet、COCO等)中抽取数据,这要求对数据进行严格的筛选和处理,以确保数据的质量和一致性。最后,尽管数据集提供了高质量的人工验证计划,但如何确保这些计划在不同模型和应用场景中的通用性和有效性,仍是一个待解决的问题。
常用场景
经典使用场景
在自然语言处理领域,m&ms数据集的经典使用场景主要集中在评估大型语言模型(LLM)在多步骤多模态任务中的工具使用能力。通过该数据集,研究者可以生成针对用户请求的计划预测,并将其与数据集中提供的标签计划或代码进行对比评估,从而量化模型在复杂任务中的表现。
解决学术问题
m&ms数据集解决了在多模态任务中评估模型工具使用能力的关键学术问题。传统方法往往难以全面评估模型在复杂任务中的表现,而该数据集通过提供高质量的人工验证任务计划,填补了这一空白。其意义在于推动了多模态任务处理技术的发展,并为未来研究提供了基准。
衍生相关工作
基于m&ms数据集,研究者们开展了一系列相关工作,包括改进多模态任务处理算法、开发新的评估指标以及构建更复杂的任务模拟环境。这些工作不仅深化了对多模态任务处理的理解,还为实际应用提供了技术支持,推动了该领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

中国1km分辨率逐月NDVI数据集(2001-2023年)

中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。

国家地球系统科学数据中心 收录