REXTIME
收藏arXiv2024-07-02 更新2024-07-23 收录
下载链接:
https://rextime.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
REXTIME数据集由国立台湾大学开发,是一个专注于视频时间推理的基准,特别强调在不同视频片段间进行因果关系理解的能力。该数据集包含2143个精心策划的测试样本,每个样本都经过人工标注以确保准确性和相关性。数据集的创建过程利用了大型语言模型辅助的数据生成管道,显著减少了人工标注的需求。REXTIME主要应用于评估和提升多模态AI模型在视频时间推理方面的能力,特别是在机器人、医疗和法律政策制定等领域。
The REXTIME dataset, developed by National Taiwan University, is a benchmark focused on video temporal reasoning, with a particular emphasis on the ability to understand causal relationships across different video segments. This dataset contains 2143 carefully curated test samples, each of which has been manually annotated to ensure accuracy and relevance. The dataset's creation process leverages a Large Language Model-aided data generation pipeline, which significantly reduces the need for manual annotation. REXTIME is primarily used to evaluate and enhance the capabilities of multimodal AI models in video temporal reasoning, especially in fields such as robotics, healthcare, and legal policy-making.
提供机构:
国立台湾大学
创建时间:
2024-06-28
搜集汇总
数据集介绍

构建方式
REXTIME数据集的构建旨在通过自动化的流程生成时间推理问题-答案对,从而减少对人工标注的需求。该流程首先从ActivityNet和QVHighlights数据集中选取包含时间对齐字幕的视频,然后通过大型语言模型(LLM)生成问题-答案对。为了确保生成的数据质量,LLM会根据特定的事件属性和时态关系进行引导,并自我评估其生成的问题-答案对的逻辑正确性。最后,人工标注者会对生成的数据样本进行严格的筛选和验证。
特点
REXTIME数据集的特点在于其专注于推理跨时间的能力,即当问题及其对应答案出现在不同的视频片段时,对事件的理解。这种推理形式需要对视频片段之间的因果关系有深入的理解,即使是前沿的多模态大型语言模型也面临着巨大的挑战。REXTIME数据集包括921个精心筛选的验证样本和2143个测试样本,每个样本都经过人工标注以确保准确性和相关性。此外,该数据集还包含9695个由机器生成的训练样本,这些样本无需人工努力,并通过微调可以显著提高跨时间推理的能力。
使用方法
REXTIME数据集的使用方法包括多个步骤。首先,用户可以通过数据集中的多个选择问题来评估模型的多模态理解能力。其次,模型需要输出所选答案对应的时间跨度,并通过IoU(交并比)阈值来评估其定位答案事件跨度的时间推理能力。为了确保模型不会通过语言捷径来提高准确性,REXTIME数据集要求模型输出答案的时间跨度。最后,用户可以利用数据集中的训练样本对模型进行微调,以提高其在跨时间推理任务上的表现。
背景与挑战
背景概述
视频理解是人工智能领域的一个重要研究方向,而视频中的时间推理能力对于理解复杂的事件和场景至关重要。REXTIME数据集的创建正是为了解决这个问题,该数据集由台湾大学和微软的研究人员共同开发,旨在评估人工智能模型在视频事件中进行时间推理的能力。REXTIME数据集专注于推理跨时间,即当问题和答案出现在不同的视频片段中时,模型能够进行类似人类的理解。这种推理形式要求模型对视频片段之间的因果关系有深入的理解,即使是前沿的多模态大型语言模型也面临着巨大的挑战。为了促进这一评估,研究人员开发了一个自动化的管道,用于生成时间推理问答对,从而显著减少了需要人工标注的工作量。REXTIME数据集包括921个经过精心审查的验证样本和2143个测试样本,每个样本都经过人工校对以确保准确性和相关性。评估结果显示,尽管前沿的大型语言模型在学术模型中表现更好,但它们仍然落后于人类表现,准确率差距为14.3%。此外,该管道创建了一个包含9,695个机器生成样本的训练数据集,无需人工努力,经验研究表明,这可以通过微调增强跨时间推理能力。
当前挑战
REXTIME数据集面临的挑战主要在于模型对视频时间推理能力的评估和提升。首先,当前的视频-语言任务主要解决文本-视觉对齐问题,而忽略了更深层次的时推理挑战。其次,即使是最先进的模型在视频问答中也难以处理问题和答案对应于不同时间片段的情况。最后,构建一个高质量的时间推理问答对数据集需要大量的人工标注工作,成本高昂。为了解决这些挑战,研究人员提出了一个LLM辅助的数据生成管道,该管道最大限度地减少了人工工作量,并将每1000个QA对的成本从300美元降低到135美元。此外,该管道创建了一个训练数据集,可以显著提高学术MLLM的时推理技能,为未来的研究降低了门槛。
常用场景
经典使用场景
REXTIME数据集旨在评估AI模型在视频事件中进行时间推理的能力,特别是在问题与其对应的答案出现在不同视频片段中的情况下。该数据集专注于推理跨时间,即人类在视频片段中理解因果关系的能力。REXTIME数据集包含921个精心审查的验证样本和2143个测试样本,每个样本都经过人工校对,以确保准确性和相关性。评估结果表明,尽管前沿大型语言模型优于学术模型,但它们仍然落后于人类表现,准确率差距显著,达到14.3%。此外,该数据集还创建了一个训练数据集,包含9,695个机器生成的样本,无需人工努力,经验研究表明,这可以通过微调来增强跨时间推理。
实际应用
REXTIME数据集的实际应用场景包括机器人技术和具身代理、医疗保健和医学、法律和政策制定等领域。在这些领域,对视频中的事件进行时间推理的能力至关重要。例如,在机器人技术中,机器人需要理解事件之间的因果关系,以便有效地执行任务。在医疗保健和医学领域,医生需要理解患者症状和治疗方法之间的时间关系,以便做出准确的诊断和治疗方案。在法律和政策制定领域,决策者需要理解事件之间的因果关系,以便制定有效的政策和法规。
衍生相关工作
REXTIME数据集衍生了相关的工作,如EgoSchema,这是一个用于评估长视频语言理解能力的诊断基准。此外,该数据集还衍生了相关工作,如VTimeLLM、Momentor和HawkEye,这些工作都旨在提高多模态AI对视频的时态理解。REXTIME数据集的出现,为评估和增强AI模型的跨时间推理能力提供了一个重要的工具,推动了该领域的研究进展。
以上内容由遇见数据集搜集并总结生成



