five

EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

收藏
arXiv2024-12-06 更新2024-12-09 收录
多模态大语言模型
规划能力评估
下载链接:
https://qiulu66.github.io/egoplanbench2/
下载链接
链接失效反馈
资源简介:
EgoPlan-Bench2是由香港大学和腾讯PCG ARC实验室创建的多模态大语言模型规划基准,旨在评估模型在多种真实世界场景中的规划能力。该数据集包含1,321个高质量的多选题问答对,覆盖了工作、日常生活、爱好和娱乐四大领域,共24个详细场景。数据集通过半自动化的过程构建,利用第一人称视角的视频,结合手动验证,确保数据的真实性和可靠性。EgoPlan-Bench2主要用于评估和提升多模态大语言模型在复杂环境中的任务规划能力,旨在解决现实世界中的多样化问题。
提供机构:
香港大学, 腾讯PCG ARC实验室
创建时间:
2024-12-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoPlan-Bench2数据集通过半自动化的流程构建,利用了Ego4D数据集中的第一人称视角视频。首先,通过GPT-4进行任务目标的提取和分解,确保任务目标具有明确的目的性和逻辑步骤。随后,基于这些任务目标和相应的动作序列,使用预定义的模板生成多选题问答对。最后,通过模型和人工验证确保数据集的可靠性和客观性。
使用方法
EgoPlan-Bench2数据集主要用于评估多模态大语言模型在真实世界场景中的规划能力。使用者可以通过提供的多选题问答对,结合视频和图像数据,评估模型在不同场景下的任务规划表现。数据集还提供了详细的统计信息和分析工具,帮助研究者深入理解模型的优缺点,并指导未来的改进方向。
背景与挑战
背景概述
EgoPlan-Bench2数据集由香港大学和腾讯ARC实验室的研究人员于2024年创建,旨在评估多模态大语言模型(MLLMs)在真实世界场景中的规划能力。该数据集涵盖了日常任务的四个主要领域和24个详细场景,通过利用第一人称视角视频和半自动化的数据生成流程,确保了数据的真实性和多样性。EgoPlan-Bench2的推出填补了当前MLLMs在复杂场景规划能力评估方面的空白,为实现人工通用智能(AGI)提供了重要的研究工具。
当前挑战
EgoPlan-Bench2数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括从第一人称视角视频中提取任务目标的复杂性,以及确保生成的多选题答案对的质量和可靠性。其次,该数据集解决的领域问题——多模态大语言模型在真实世界中的规划能力——面临着模型对复杂环境理解不足、时间感知和认知能力有限,以及综合规划过程中推理能力不足等具体挑战。这些挑战要求未来的研究在视觉感知、复杂时间理解和推理能力等方面进行深入探索和提升。
常用场景
经典使用场景
EgoPlan-Bench2 数据集的经典使用场景在于评估多模态大型语言模型(MLLMs)在真实世界场景中的规划能力。该数据集通过包含日常任务的4个主要领域和24个详细场景,模拟了人类在日常生活中解决问题的第一人称视角。通过使用EgoPlan-Bench2,研究人员可以测试和分析MLLMs在复杂环境中的决策能力,特别是在需要根据当前环境和历史任务进度做出合理决策的情况下。
解决学术问题
EgoPlan-Bench2 数据集解决了当前MLLMs在多样化场景中规划能力的评估不足问题。它提供了一个全面的基准,通过半自动化的过程利用第一人称视频,辅以人工验证,确保了数据集的准确性和可靠性。该数据集的引入不仅揭示了现有MLLMs在实际任务规划中的显著挑战,还为未来提升这些模型的规划能力提供了宝贵的见解和方向。
实际应用
EgoPlan-Bench2 数据集在实际应用中具有广泛的前景,特别是在开发能够协助人类处理日常任务的智能助手方面。通过评估MLLMs在真实世界场景中的规划能力,该数据集有助于推动智能助手在家庭、工作、娱乐等多个领域的应用。此外,它还可以用于训练和优化机器人、自动驾驶系统等需要复杂决策能力的智能系统。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)的快速发展背景下,EgoPlan-Bench2数据集的最新研究方向聚焦于评估和提升模型在真实世界场景中的规划能力。该数据集通过整合日常任务的多样性场景和第一人称视角视频,旨在填补当前MLLMs在复杂环境决策中的能力空白。研究不仅揭示了现有模型在实际任务规划中的显著局限,还提出了一种无需额外训练的改进方法,通过多模态思维链(CoT)提示来增强GPT-4V的性能,从而为未来AGI的发展提供了重要见解。
相关研究论文
  • 1
    EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios香港大学, 腾讯PCG ARC实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIGO Open Science Center Data

LIGO Open Science Center Data 包含来自激光干涉引力波天文台(LIGO)的观测数据,主要用于研究引力波的探测和分析。数据集包括引力波事件的原始数据、处理后的数据以及相关的元数据,适用于天文学、物理学和数据科学领域的研究。

www.gw-openscience.org 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录