five

LongViTU|视频理解数据集|视频问答数据集

收藏
arXiv2025-01-09 更新2025-01-14 收录
视频理解
视频问答
下载链接:
https://rujiewu.github.io/LongViTU.github.io/
下载链接
链接失效反馈
资源简介:
LongViTU是一个用于长视频理解的大规模数据集,由北京大学、BIGAI和新加坡国立大学的研究团队共同创建。该数据集包含约121k个高质量的问答对,覆盖约900小时的视频内容,平均每个视频的问答对时长为4.6分钟。数据集通过自动生成的层次化树结构构建,确保了问答对的高质量和时间戳的精确标注。数据集的内容涵盖了多样化的真实世界场景,适用于长视频和流媒体视频的理解任务,旨在解决现有数据集在时间标注、场景多样性和问答精确性方面的不足。LongViTU的应用领域包括视频问答、长视频理解以及流媒体视频分析等。
提供机构:
北京大学, BIGAI, 新加坡国立大学
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
LongViTU数据集的构建采用了分层次的视频树结构,结合了自修正机制以确保高质量的问题-答案对生成。首先,从Ego4D数据集中提取视频帧,并通过InternLM-XComposer2模型进行密集标注,生成帧级别的描述和时间戳。接着,利用GPT-4对帧级别的描述进行提炼,生成事件级别的描述,并将相关事件合并为段级别的描述,最终形成层次化的视频树结构。通过滑动窗口操作,从视频子树中生成问题-答案对,并利用GPT-4进行自修正,确保问题与视频内容的一致性。
特点
LongViTU数据集具有长时上下文、丰富的知识推理和显式时间戳标注等特点。其平均证书长度达到276.8秒(约4.6分钟),涵盖了常识、因果关系、规划等多种推理类型。数据集还提供了精细的时空分类,问题类型包括对象、属性、位置、动作等,并支持开放式的精确问答。此外,LongViTU是首个公开的长视频问答数据集,具备显式的时间戳标注,能够有效支持长视频和流媒体视频的理解任务。
使用方法
LongViTU数据集可用于长视频理解和指令调优任务。用户可以通过该数据集对开源和商业视觉语言模型进行监督微调,提升其在长视频问答任务中的表现。数据集提供了训练、验证和测试集,分别包含101k、14k和6k个问题-答案对。用户可以利用数据集中的显式时间戳标注,精确识别视频中的关键时刻,并通过自修正机制生成高质量的问题-答案对。此外,LongViTU还可作为基准数据集,用于评估模型在长视频理解任务中的表现。
背景与挑战
背景概述
LongViTU 是一个专注于长视频理解的大规模数据集,由北京大学、BIGAI 和新加坡国立大学的研究团队于2025年提出。该数据集包含约121,000个问答对,覆盖约900小时的视频内容,旨在解决长视频理解中的复杂问题,如时空推理、常识推理和事件规划等。LongViTU 的独特之处在于其采用了层次化的视频树结构,并引入了自修正机制,确保问答对的高质量生成。该数据集不仅为长视频理解提供了基准,还推动了开源和商业模型在该领域的性能提升。
当前挑战
LongViTU 面临的挑战主要体现在两个方面。首先,长视频理解本身具有复杂性,模型需要处理长时间跨度的时空信息,捕捉关键事件并生成准确的问答对。其次,数据集的构建过程中,研究人员需要克服视频内容冗余、时间标注不精确等问题。尽管采用了层次化结构和自修正机制,生成高质量问答对仍然需要大量的计算资源和时间。此外,现有的模型在处理长视频时,往往面临输入长度限制和视觉信息压缩的挑战,导致性能下降。这些挑战使得长视频理解成为一个极具研究价值的领域。
常用场景
经典使用场景
LongViTU数据集在长视频理解领域具有广泛的应用,尤其是在视频问答(VQA)任务中。通过其层次化的视频树结构和显式的时间戳标注,LongViTU能够支持对长视频内容的细粒度时空分析。经典的使用场景包括对视频中的物体、属性、位置、动作等进行问答,帮助模型理解视频中的复杂事件序列。例如,模型可以通过LongViTU回答诸如“视频中的人物在厨房里做了什么?”或“视频中某个物体的颜色是什么?”等问题。
解决学术问题
LongViTU解决了长视频理解中的多个关键学术问题。首先,它通过显式的时间戳标注,解决了传统数据集中缺乏精确时间标注的问题,使得模型能够更准确地定位视频中的关键事件。其次,LongViTU的长证书长度(平均4.6分钟)使得模型能够处理更长的视频片段,克服了短数据集在处理长视频时的局限性。此外,其细粒度的分类和开放式的精确问答机制,使得模型能够更好地理解视频中的复杂时空关系,推动了长视频理解领域的研究进展。
衍生相关工作
LongViTU的推出催生了一系列相关研究工作,尤其是在长视频理解和多模态学习领域。基于LongViTU,研究人员开发了多个先进的视频理解模型,如LongVU和Video-LLaVA,这些模型在长视频问答任务中表现出色。此外,LongViTU还推动了长上下文语言模型的发展,如GPT-4-turbo和ChatGLM,这些模型在处理长视频内容时表现出更强的能力。LongViTU的成功也激发了更多关于视频记忆机制和流式视频处理的研究,为未来的长视频理解技术奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

梗指南

该数据集描述了目前的网络流行用语,被年轻人称为“梗”,通过该数据集,你可以了解这些梗的来源和关键以及它所表达的含义。

魔搭社区 收录

Hang Seng Index

恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。

www.hsi.com.hk 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

World Development Indicators (WDI)

世界发展指标(World Development Indicators, WDI)是由世界银行发布的一个综合数据集,涵盖了全球200多个国家和地区的经济、社会和环境指标。数据集包括人口统计、教育、健康、经济、环境等多个领域的指标,旨在提供全球发展状况的全面视图。

databank.worldbank.org 收录