five

VSTAR

收藏
arXiv2023-05-30 更新2024-06-21 收录
下载链接:
https://vstar-benchmark.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
VSTAR是一个大规模的视频对话理解数据集,基于395部电视剧构建,包含185,000个90秒的视频片段。该数据集通过精心清洗的对话和元数据信息,旨在解决视频对话中的场景和话题转换问题。VSTAR数据集的应用领域包括视频对话的场景分割、话题分割以及对话生成,旨在提高机器对多模态信息的理解和处理能力,特别是在处理复杂的视频理解和多模态场景&话题转换识别方面。

VSTAR is a large-scale video dialogue understanding dataset, constructed based on 395 TV dramas, containing 185,000 90-second video clips. With carefully curated dialogues and metadata, this dataset is designed to address the challenges of scene and topic transition in video dialogues. The application scenarios of VSTAR cover scene segmentation, topic segmentation and dialogue generation for video dialogues, aiming to improve machines' capability of understanding and processing multimodal information, especially in complex video understanding and multimodal scene and topic transition recognition tasks.
提供机构:
北京大学王选计算机研究所
创建时间:
2023-05-30
搜集汇总
背景与挑战
背景概述
VSTAR是一个基于395部电视剧构建的大规模视频对话理解数据集,包含185,000个90秒视频片段,旨在解决视频对话中的场景和话题转换问题,适用于视频对话的场景分割、话题分割及对话生成等任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作