ViSpeak-Instruct, ViSpeak-Bench

github2025-03-18 更新2025-03-21 收录

下载链接：

https://github.com/HumanMLLM/ViSpeak

下载链接

链接失效反馈

官方服务：

资源简介：

ViSpeak-Instruct数据集用于训练，ViSpeak-Bench用于评估。这些数据集支持视觉指令反馈任务的研究，该任务要求模型能够主动响应视觉内容，从而增强人机交互。

ViSpeak-Instruct dataset is utilized for model training, while ViSpeak-Bench is designed for model evaluation. These datasets support research on visual instruction feedback tasks, which require models to proactively respond to visual content so as to enhance human-computer interaction.

创建时间：

2025-03-11

原始信息汇总

ViSpeak 数据集概述

数据集简介

ViSpeak 是一个专注于流媒体视频理解的数据集，提出了一个名为视觉指令反馈的新任务。该任务要求模型能够感知视觉内容并从中提取指令，从而增强用户与代理之间的交互。例如，当用户向代理挥手时，代理应识别手势并开始对话。ViSpeak 数据集包括用于训练的 ViSpeak-Instruct 数据集和用于评估的 ViSpeak-Bench 数据集。

数据集内容

ViSpeak-Instruct：用于训练的数据集，包含与视觉模态高度相关的七个关键子任务。
ViSpeak-Bench：用于评估的基准数据集，支持对现有模型的评估结果进行分析。

模型

ViSpeak：一个基于流媒体视频理解的大型多模态模型（LMM），具有 GPT-4o 级别的性能。该模型通过三阶段微调，保留了离线理解能力，并在流媒体视频理解基准测试中达到了 SOTA 性能。
ViSpeak-s2 和 ViSpeak-s3：提供了两个版本的模型，分别可在 Huggingface 和 ModelScope 上获取。

实验与评估

离线基准测试：包括 MME、MVBench 和 Video-MME 等基准测试。
在线基准测试：包括 StreamingBench 和 OVO-Bench 等基准测试。
ViSpeak-Bench：专门用于评估 ViSpeak 模型的基准测试，基于 GPT-4o 进行评估。

数据准备与训练

数据准备：数据集包括多个子数据集，如 FunQA、HIVAU、IntentQA、SMILE、social-iq 和 UAL-Bench 等。用户需按照指定路径组织数据。
训练环境：使用 PyTorch、Transformers 等工具进行训练，支持多节点分布式训练。

引用

如果使用 ViSpeak 数据集或模型，请引用以下论文： bibtex @article{fu2025vispeak, title={ViSpeak: Visual Instruction Feedback in Streaming Videos}, author={Fu, Shenghao and Yang, Qize and Li, Yuan-Ming and Peng, Yi-Xing and Lin, Kun-Yu and Wei, Xihan and Hu, Jian-Fang and Xie, Xiaohua and Zheng, Wei-Shi}, journal={arXiv preprint arXiv:2503.12769}, year={2025} }

许可证

模型和代码遵循 Apache License 2.0。
自收集的视频数据遵循 CC BY-NC-SA 4.0 许可证。

搜集汇总

数据集介绍

构建方式

ViSpeak-Instruct和ViSpeak-Bench数据集的构建基于流媒体视频理解的新任务——视觉指令反馈（Visual Instruction Feedback）。该任务要求模型能够从视觉内容中提取指令并做出响应，以增强人机交互体验。数据集的构建过程包括手动收集与视觉模态高度相关的七个子任务数据，并通过多阶段微调的方式对模型进行训练。具体而言，ViSpeak-Instruct用于训练，ViSpeak-Bench用于评估，两者共同支持流媒体视频理解的研究。

特点

ViSpeak-Instruct和ViSpeak-Bench数据集的特点在于其专注于流媒体视频的实时理解与交互。数据集涵盖了多种视觉模态任务，如手势识别、异常检测和社交互动等，能够有效评估模型在动态视频环境中的表现。此外，数据集还提供了丰富的标注信息，支持模型在视觉指令反馈任务中的训练与评估。ViSpeak-Bench的评估基于GPT-4o，确保了评估结果的准确性和权威性。

使用方法

使用ViSpeak-Instruct和ViSpeak-Bench数据集时，用户需首先下载数据集并按照指定路径组织数据。对于训练，用户可通过多阶段微调脚本对模型进行训练，具体步骤包括数据准备、模型配置和训练执行。对于评估，用户需下载基准数据并修改模型路径，随后通过命令行工具进行离线或在线基准测试。ViSpeak-Bench的评估还需获取GPT-4o的API密钥，以确保评估过程的顺利进行。

背景与挑战

背景概述

ViSpeak-Instruct和ViSpeak-Bench数据集由HumanMLLM团队于2025年推出，旨在推动流媒体视频理解领域的研究。该数据集的核心研究问题在于如何通过视觉指令反馈（Visual Instruction Feedback）增强人机交互体验。传统的多模态模型主要关注离线视频理解，而流媒体视频因其时间敏感性、多模态性和交互性等特点，对现有模型提出了更高的要求。ViSpeak-Instruct用于训练模型从视觉内容中提取指令，而ViSpeak-Bench则用于评估模型的性能。该数据集的推出为流媒体视频理解任务提供了新的研究视角，并为相关领域的研究者提供了强有力的工具。

当前挑战

ViSpeak数据集在构建和应用过程中面临多重挑战。首先，流媒体视频的实时性和多模态特性要求模型能够快速处理并整合视觉、音频等多种信息，这对模型的架构和计算效率提出了极高要求。其次，视觉指令反馈任务要求模型能够准确理解并响应复杂的视觉指令，例如手势识别和异常检测，这对模型的泛化能力和鲁棒性提出了挑战。此外，数据集的构建过程中，如何确保标注的准确性和多样性，以及如何平衡不同子任务的数据分布，也是需要克服的难题。这些挑战不仅体现在模型训练和评估中，也贯穿于数据集的构建和优化过程。

常用场景

经典使用场景

ViSpeak-Instruct和ViSpeak-Bench数据集在流媒体视频理解领域具有广泛的应用。其经典使用场景包括实时视频分析、多模态交互任务以及视觉指令反馈。通过该数据集，研究人员能够训练模型从视频流中提取视觉指令，并实现与用户的动态交互。例如，当用户通过手势与智能代理进行交互时，模型能够识别手势并触发相应的对话响应，从而提升用户体验。

实际应用

在实际应用中，ViSpeak-Instruct和ViSpeak-Bench数据集为智能代理、虚拟助手和实时监控系统提供了强大的技术支持。例如，在智能家居场景中，用户可以通过手势控制设备，模型能够实时识别并执行指令。在安防监控领域，该数据集可用于训练模型识别异常行为并发出警报。此外，在教育和医疗领域，数据集支持开发交互式学习工具和远程医疗助手，进一步提升多模态交互的效率和准确性。

衍生相关工作

ViSpeak-Instruct和ViSpeak-Bench数据集的发布催生了一系列相关研究工作。例如，基于该数据集开发的ViSpeak模型在多个流媒体视频理解基准测试中达到了SOTA性能，成为该领域的标杆模型。此外，数据集还推动了多模态大模型（如HumanOmni和R1-Omni）的发展，这些模型进一步扩展了视觉、语音和情感分析的能力。相关研究还包括Omni-Emotion项目，该项目通过引入详细的面部和音频建模，提升了多模态情感分析的精度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集