five

EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

收藏
arXiv2024-12-06 更新2024-12-09 收录
多模态大语言模型
规划能力评估
下载链接:
https://qiulu66.github.io/egoplanbench2/
下载链接
链接失效反馈
资源简介:
EgoPlan-Bench2是由香港大学和腾讯PCG ARC实验室创建的多模态大语言模型规划基准,旨在评估模型在多种真实世界场景中的规划能力。该数据集包含1,321个高质量的多选题问答对,覆盖了工作、日常生活、爱好和娱乐四大领域,共24个详细场景。数据集通过半自动化的过程构建,利用第一人称视角的视频,结合手动验证,确保数据的真实性和可靠性。EgoPlan-Bench2主要用于评估和提升多模态大语言模型在复杂环境中的任务规划能力,旨在解决现实世界中的多样化问题。
提供机构:
香港大学, 腾讯PCG ARC实验室
创建时间:
2024-12-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoPlan-Bench2数据集通过半自动化的流程构建,利用了Ego4D数据集中的第一人称视角视频。首先,通过GPT-4进行任务目标的提取和分解,确保任务目标具有明确的目的性和逻辑步骤。随后,基于这些任务目标和相应的动作序列,使用预定义的模板生成多选题问答对。最后,通过模型和人工验证确保数据集的可靠性和客观性。
使用方法
EgoPlan-Bench2数据集主要用于评估多模态大语言模型在真实世界场景中的规划能力。使用者可以通过提供的多选题问答对,结合视频和图像数据,评估模型在不同场景下的任务规划表现。数据集还提供了详细的统计信息和分析工具,帮助研究者深入理解模型的优缺点,并指导未来的改进方向。
背景与挑战
背景概述
EgoPlan-Bench2数据集由香港大学和腾讯ARC实验室的研究人员于2024年创建,旨在评估多模态大语言模型(MLLMs)在真实世界场景中的规划能力。该数据集涵盖了日常任务的四个主要领域和24个详细场景,通过利用第一人称视角视频和半自动化的数据生成流程,确保了数据的真实性和多样性。EgoPlan-Bench2的推出填补了当前MLLMs在复杂场景规划能力评估方面的空白,为实现人工通用智能(AGI)提供了重要的研究工具。
当前挑战
EgoPlan-Bench2数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括从第一人称视角视频中提取任务目标的复杂性,以及确保生成的多选题答案对的质量和可靠性。其次,该数据集解决的领域问题——多模态大语言模型在真实世界中的规划能力——面临着模型对复杂环境理解不足、时间感知和认知能力有限,以及综合规划过程中推理能力不足等具体挑战。这些挑战要求未来的研究在视觉感知、复杂时间理解和推理能力等方面进行深入探索和提升。
常用场景
经典使用场景
EgoPlan-Bench2 数据集的经典使用场景在于评估多模态大型语言模型(MLLMs)在真实世界场景中的规划能力。该数据集通过包含日常任务的4个主要领域和24个详细场景,模拟了人类在日常生活中解决问题的第一人称视角。通过使用EgoPlan-Bench2,研究人员可以测试和分析MLLMs在复杂环境中的决策能力,特别是在需要根据当前环境和历史任务进度做出合理决策的情况下。
解决学术问题
EgoPlan-Bench2 数据集解决了当前MLLMs在多样化场景中规划能力的评估不足问题。它提供了一个全面的基准,通过半自动化的过程利用第一人称视频,辅以人工验证,确保了数据集的准确性和可靠性。该数据集的引入不仅揭示了现有MLLMs在实际任务规划中的显著挑战,还为未来提升这些模型的规划能力提供了宝贵的见解和方向。
实际应用
EgoPlan-Bench2 数据集在实际应用中具有广泛的前景,特别是在开发能够协助人类处理日常任务的智能助手方面。通过评估MLLMs在真实世界场景中的规划能力,该数据集有助于推动智能助手在家庭、工作、娱乐等多个领域的应用。此外,它还可以用于训练和优化机器人、自动驾驶系统等需要复杂决策能力的智能系统。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)的快速发展背景下,EgoPlan-Bench2数据集的最新研究方向聚焦于评估和提升模型在真实世界场景中的规划能力。该数据集通过整合日常任务的多样性场景和第一人称视角视频,旨在填补当前MLLMs在复杂环境决策中的能力空白。研究不仅揭示了现有模型在实际任务规划中的显著局限,还提出了一种无需额外训练的改进方法,通过多模态思维链(CoT)提示来增强GPT-4V的性能,从而为未来AGI的发展提供了重要见解。
相关研究论文
  • 1
    EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios香港大学, 腾讯PCG ARC实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

rpi_test

该数据集为HuggingFace LeRobot格式机器人数据集。

huggingface 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录