five

EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

收藏
arXiv2024-12-06 更新2024-12-09 收录
多模态大语言模型
规划能力评估
下载链接:
https://qiulu66.github.io/egoplanbench2/
下载链接
链接失效反馈
资源简介:
EgoPlan-Bench2是由香港大学和腾讯PCG ARC实验室创建的多模态大语言模型规划基准,旨在评估模型在多种真实世界场景中的规划能力。该数据集包含1,321个高质量的多选题问答对,覆盖了工作、日常生活、爱好和娱乐四大领域,共24个详细场景。数据集通过半自动化的过程构建,利用第一人称视角的视频,结合手动验证,确保数据的真实性和可靠性。EgoPlan-Bench2主要用于评估和提升多模态大语言模型在复杂环境中的任务规划能力,旨在解决现实世界中的多样化问题。
提供机构:
香港大学, 腾讯PCG ARC实验室
创建时间:
2024-12-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoPlan-Bench2数据集通过半自动化的流程构建,利用了Ego4D数据集中的第一人称视角视频。首先,通过GPT-4进行任务目标的提取和分解,确保任务目标具有明确的目的性和逻辑步骤。随后,基于这些任务目标和相应的动作序列,使用预定义的模板生成多选题问答对。最后,通过模型和人工验证确保数据集的可靠性和客观性。
使用方法
EgoPlan-Bench2数据集主要用于评估多模态大语言模型在真实世界场景中的规划能力。使用者可以通过提供的多选题问答对,结合视频和图像数据,评估模型在不同场景下的任务规划表现。数据集还提供了详细的统计信息和分析工具,帮助研究者深入理解模型的优缺点,并指导未来的改进方向。
背景与挑战
背景概述
EgoPlan-Bench2数据集由香港大学和腾讯ARC实验室的研究人员于2024年创建,旨在评估多模态大语言模型(MLLMs)在真实世界场景中的规划能力。该数据集涵盖了日常任务的四个主要领域和24个详细场景,通过利用第一人称视角视频和半自动化的数据生成流程,确保了数据的真实性和多样性。EgoPlan-Bench2的推出填补了当前MLLMs在复杂场景规划能力评估方面的空白,为实现人工通用智能(AGI)提供了重要的研究工具。
当前挑战
EgoPlan-Bench2数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括从第一人称视角视频中提取任务目标的复杂性,以及确保生成的多选题答案对的质量和可靠性。其次,该数据集解决的领域问题——多模态大语言模型在真实世界中的规划能力——面临着模型对复杂环境理解不足、时间感知和认知能力有限,以及综合规划过程中推理能力不足等具体挑战。这些挑战要求未来的研究在视觉感知、复杂时间理解和推理能力等方面进行深入探索和提升。
常用场景
经典使用场景
EgoPlan-Bench2 数据集的经典使用场景在于评估多模态大型语言模型(MLLMs)在真实世界场景中的规划能力。该数据集通过包含日常任务的4个主要领域和24个详细场景,模拟了人类在日常生活中解决问题的第一人称视角。通过使用EgoPlan-Bench2,研究人员可以测试和分析MLLMs在复杂环境中的决策能力,特别是在需要根据当前环境和历史任务进度做出合理决策的情况下。
解决学术问题
EgoPlan-Bench2 数据集解决了当前MLLMs在多样化场景中规划能力的评估不足问题。它提供了一个全面的基准,通过半自动化的过程利用第一人称视频,辅以人工验证,确保了数据集的准确性和可靠性。该数据集的引入不仅揭示了现有MLLMs在实际任务规划中的显著挑战,还为未来提升这些模型的规划能力提供了宝贵的见解和方向。
实际应用
EgoPlan-Bench2 数据集在实际应用中具有广泛的前景,特别是在开发能够协助人类处理日常任务的智能助手方面。通过评估MLLMs在真实世界场景中的规划能力,该数据集有助于推动智能助手在家庭、工作、娱乐等多个领域的应用。此外,它还可以用于训练和优化机器人、自动驾驶系统等需要复杂决策能力的智能系统。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)的快速发展背景下,EgoPlan-Bench2数据集的最新研究方向聚焦于评估和提升模型在真实世界场景中的规划能力。该数据集通过整合日常任务的多样性场景和第一人称视角视频,旨在填补当前MLLMs在复杂环境决策中的能力空白。研究不仅揭示了现有模型在实际任务规划中的显著局限,还提出了一种无需额外训练的改进方法,通过多模态思维链(CoT)提示来增强GPT-4V的性能,从而为未来AGI的发展提供了重要见解。
相关研究论文
  • 1
    EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios香港大学, 腾讯PCG ARC实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中指数据库(物业版)

物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。

西部数据交易中心 收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

CAMUS_public-ImageMask-Dataset

这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。

github 收录

Multi-View Learning Datasets

欢迎来到多视图学习数据集的中心!这个仓库装满了在多视图学习研究中常用的`.mat`文件。感受数据的力量吧!

github 收录