Daily-Life Task Procedural Plans (Daily-PP)
收藏arXiv2024-12-16 更新2024-12-19 收录
下载链接:
https://github.com/mfurkanilaslan/VG-TVP
下载链接
链接失效反馈官方服务:
资源简介:
Daily-Life Task Procedural Plans (Daily-PP) 数据集由新加坡国立大学和新加坡资讯通信研究院共同创建,旨在解决多模态程序规划任务中的数据稀缺问题。该数据集包含了日常生活中的任务程序计划,结合了文本和视频的多模态信息,帮助模型生成连贯的文本和视频程序计划。数据集的创建过程利用了视频字幕生成模型和语言模型的零样本推理能力,确保了文本和视频计划在时间和空间上的连贯性。Daily-PP数据集主要应用于多模态程序规划领域,旨在提高模型在生成程序计划时的准确性和用户友好性。
Daily-Life Task Procedural Plans (Daily-PP) dataset was jointly created by the National University of Singapore and the Institute for Infocomm Research Singapore, aiming to address the data scarcity problem in multimodal procedural planning tasks. This dataset encompasses procedural plans for daily-life tasks, integrating multimodal information including text and video, to assist models in generating coherent textual and video procedural plans. During the dataset construction process, the zero-shot inference capabilities of video captioning models and large language models are leveraged to ensure the temporal and spatial coherence of both textual and video plans. The Daily-PP dataset is primarily applied in the field of multimodal procedural planning, with the objective of enhancing the accuracy and user-friendliness of models when generating procedural plans.
提供机构:
新加坡国立大学,新加坡资讯通信研究院
创建时间:
2024-12-16
搜集汇总
数据集介绍

构建方式
Daily-Life Task Procedural Plans (Daily-PP) 数据集的构建旨在填补现有数据集在多模态程序规划(MPP)任务中的不足。该数据集通过从YouTube上收集的50个已见任务和15个未见任务的视频,涵盖了早餐、晚餐、饮品、爱好与手工艺、家庭与车库等五个领域。已见任务每个包含7到10个视频,而未见任务则通过已见任务的视频字幕生成其程序规划。数据集的构建不仅考虑了任务的多样性,还确保了任务步骤的详细性和多模态信息的丰富性,以支持多模态程序规划的研究。
特点
Daily-PP 数据集的主要特点在于其多模态性和任务的多样性。数据集包含了丰富的文本和视频信息,涵盖了从日常烹饪到手工艺等多个领域的任务。每个任务的步骤都通过文本和视频进行详细描述,确保了任务的步骤清晰且易于理解。此外,数据集还特别关注了任务的时间一致性和视觉信息的准确性,使得生成的程序规划在文本和视频之间具有高度的同步性和一致性。
使用方法
Daily-PP 数据集可用于多模态程序规划的研究,特别是在生成任务步骤的文本和视频规划方面。研究者可以通过该数据集训练和评估模型,以生成具有时间一致性和视觉准确性的程序规划。使用该数据集时,研究者可以利用文本和视频信息进行模型的训练,并通过对比生成的程序规划与数据集中的真实规划来评估模型的性能。此外,数据集还可用于探索多模态信息融合的方法,以提高程序规划的生成质量。
背景与挑战
背景概述
Daily-Life Task Procedural Plans (Daily-PP) 数据集由新加坡国立大学和新加坡信息通信研究院的研究团队于2024年提出,旨在解决多模态程序规划(Multimodal Procedural Planning, MPP)领域的数据稀缺问题。该数据集通过整合文本和视频指令,帮助用户完成日常生活中的任务,如烹饪、手工艺等。主要研究人员包括Muhammet Furkan Ilaslan、Kevin Qinhong Lin等,核心研究问题是如何生成具有时间一致性和视觉信息丰富性的程序计划。Daily-PP数据集的推出填补了现有数据集在多模态程序规划任务中的不足,推动了该领域的发展。
当前挑战
Daily-PP数据集在构建过程中面临多重挑战。首先,如何确保文本和视频指令在时间上的连贯性,避免步骤之间的逻辑断裂,是该数据集面临的主要挑战之一。其次,生成视觉信息丰富且与文本指令高度一致的视频内容,尤其是在资源有限的情况下,是一个技术难题。此外,现有数据集在任务模式和结构上的不足,使得Daily-PP的构建需要克服数据标注和任务序列化的复杂性。最后,如何在零样本推理(zero-shot reasoning)的场景下,生成高质量的多模态程序计划,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
Daily-PP数据集的经典使用场景在于支持多模态程序性规划(MPP)任务,特别是在生成视觉与文本相结合的程序性计划时。该数据集通过提供日常生活中的任务步骤,如烹饪、手工艺和家庭维护等,帮助模型生成详细的文本和视频指导。例如,在烹饪意大利面时,模型可以生成从煮水到调味的一系列步骤,并配以相应的视频演示,从而增强用户对任务的理解和执行能力。
解决学术问题
Daily-PP数据集解决了现有数据集在多模态程序性规划(MPP)任务中的不足,特别是缺乏结构化任务序列和视觉与文本信息的对齐问题。通过提供详细的文本和视频步骤,该数据集帮助模型在生成程序性计划时实现更高的文本和视觉信息一致性、时间连贯性和计划准确性。这不仅推动了多模态生成技术的发展,还为未来的研究提供了新的基准。
衍生相关工作
Daily-PP数据集的发布催生了一系列相关研究工作,特别是在多模态生成和程序性规划领域。例如,基于该数据集的研究提出了VG-TVP框架,通过融合视频字幕和文本生成技术,提升了多模态程序性计划的生成质量。此外,该数据集还激发了对视频字幕生成、文本到视频生成以及多模态对齐技术的进一步探索,推动了多模态生成模型在实际应用中的发展。
以上内容由遇见数据集搜集并总结生成



