FriendsQA
收藏arXiv2024-12-22 更新2024-12-25 收录
下载链接:
https://github.com/nercms-mmap/FriendsQA
下载链接
链接失效反馈官方服务:
资源简介:
FriendsQA是一个大规模的深度视频理解数据集,由武汉大学创建,基于著名情景喜剧《老友记》构建。该数据集包含44.6K个问题,均匀分布在14个细粒度主题上,平均每集视频长度为1,358秒。数据集的创建过程采用了基于大型语言模型的多智能体协作框架,自动生成并筛选高质量问题,确保了问题的多样性和平衡性。FriendsQA主要用于评估视频问答模型在复杂故事情节理解方面的能力,旨在解决现有数据集在深度视频理解任务中的不足。
FriendsQA is a large-scale deep video understanding dataset created by Wuhan University, constructed based on the famous sitcom Friends. This dataset contains 44.6K questions evenly distributed across 14 fine-grained topics, with an average video length of 1,358 seconds per episode. The dataset was developed using a large language model-based multi-agent collaboration framework, which automatically generates and filters high-quality questions to ensure the diversity and balance of the questions. FriendsQA is primarily used to evaluate the capability of video question answering models in comprehending complex storylines, aiming to address the limitations of existing datasets in deep video understanding tasks.
提供机构:
武汉大学
创建时间:
2024-12-22
搜集汇总
数据集介绍

构建方式
FriendsQA数据集通过一个基于大型语言模型的多智能体协作框架StoryMind构建,该框架包括一个生成器和两个审查器。生成器根据14个细粒度主题生成问题,并确保每个主题的问题数量达到预设阈值。两个审查器负责过滤低质量问题,确保问题和答案的合理性与准确性。此外,数据集还引入了难度测量和跨集问题,以增加数据集的挑战性。FriendsQA数据集基于著名情景喜剧《老友记》构建,包含44.6K个问题,平均每集长度为1,358秒。
特点
FriendsQA数据集的显著特点是其细粒度主题分类和平衡的问题分布。数据集包含14个细粒度主题,涵盖角色、动作、地点及其组合,问题类型包括感知和推理。数据集中的问题数量均匀分布,确保了每个主题的覆盖率。此外,数据集还引入了难度测量和跨集问题,以评估模型对复杂故事线的理解能力。
使用方法
FriendsQA数据集适用于视频问答任务,特别是深度视频理解任务。研究人员可以使用该数据集评估视频问答模型的性能,尤其是对复杂故事线的理解能力。数据集中的问题类型多样,涵盖感知和推理,适合用于训练和测试多模态语言模型。通过分析模型在不同难度级别和细粒度主题上的表现,可以深入了解模型的理解能力和局限性。
背景与挑战
背景概述
FriendsQA数据集由武汉大学的研究团队创建,旨在解决视频问答(VideoQA)领域中深度视频理解(DVU)任务的挑战。该数据集基于著名情景喜剧《老友记》,包含44.6万个问题,均匀分布在14个细粒度主题上,涵盖角色、动作和地点等核心故事元素。FriendsQA的构建旨在评估模型对复杂故事情节的理解能力,尤其是长篇视频中的角色互动和情节发展。该数据集的创建通过多智能体协作框架StoryMind实现,显著降低了手工构建数据集的高成本,并为视频问答模型的深度理解能力提供了全面的评估平台。
当前挑战
FriendsQA数据集面临的挑战主要集中在两个方面:首先,现有的视频问答模型在处理复杂故事情节时表现不佳,尤其是在涉及角色、动作和地点的长期互动和情节发展时。其次,构建过程中遇到的挑战包括如何自动生成大量问题并确保其质量,以及如何在不同主题之间实现平衡分布。此外,现有数据集在视频长度和问题数量上的限制,使得模型难以在广度和深度上同时评估其对故事情节的理解能力。FriendsQA通过引入跨集问题和难度评估机制,进一步提升了数据集的挑战性。
常用场景
经典使用场景
FriendsQA数据集的经典使用场景主要集中在深度视频理解(DVU)任务中,特别是在故事视频的复杂情节理解和推理方面。该数据集通过提供细粒度的主题分类问题,帮助模型理解视频中的角色、动作和位置等核心故事元素,从而评估模型在长篇故事情节中的推理能力。
解决学术问题
FriendsQA数据集解决了现有视频问答(VideoQA)模型在深度视频理解任务中的不足,特别是在处理复杂故事情节时表现出的推理能力不足。通过提供基于故事主题的细粒度问题,该数据集能够全面评估模型在复杂情节中的理解能力,推动了视频问答领域的发展。
衍生相关工作
FriendsQA数据集的推出激发了大量相关研究工作,特别是在多模态大语言模型(MLLM)和视频语言模型(VLM)的应用方面。许多研究者基于该数据集开发了新的模型和方法,进一步提升了视频问答系统的性能,推动了视频理解和多模态学习的研究进展。
以上内容由遇见数据集搜集并总结生成



