PhoStream

github2026-02-01 更新2026-02-03 收录

下载链接：

https://github.com/Lucky-Lance/PhoStream

下载链接

链接失效反馈

官方服务：

资源简介：

PhoStream是首个以移动设备为中心的流式基准测试，统一了屏幕内和屏幕外场景，用于评估现实手机使用中的全模态助手。该基准测试包含来自578个视频的5,572个开放式问答对，覆盖4个场景和10种能力，旨在检验模型在观看连续音视频流时是否能确定何时说话以及说什么。

PhoStream is the first mobile device-centric streaming benchmark that unifies both on-screen and off-screen scenarios for evaluating multimodal assistants in real-world mobile usage. This benchmark comprises 5,572 open-ended question-answer pairs derived from 578 videos, covering 4 scenarios and 10 capabilities, with the objective of assessing whether a model can ascertain the appropriate timing and content for speech output while engaging with continuous audio-visual streams.

创建时间：

2026-02-01

原始信息汇总

PhoStream 数据集概述

数据集基本信息

数据集名称： PhoStream
核心定位：首个以移动设备为中心、统一屏幕内与屏幕外场景的流式基准测试，用于评估现实手机使用场景下的全模态助手。
数据规模：包含来自578个视频的5,572个开放式问答对。
视频特征：视频平均时长为13.3分钟。
预览数据集：在Hugging Face上提供了一个预览子集，包含20个视频和198个问答对。

数据集结构与内容

涵盖场景： 4种多样化的移动场景。
评估能力： 10种不同的能力标签。
核心任务：考察模型在观看连续的视听流时，能否判断“何时说话”以及“说什么”。

关键贡献与发现

提出PhoStream基准：统一了屏幕内与屏幕外场景，支持对多模态理解（包括视频、音频和时序推理）的严格评估。
构建可扩展框架：
- 自动化生成流程与人工验证相结合，实现高效标注。
- 在线推理流程以1秒为间隔更新流，并采用60秒的滑动记忆窗口。
- 建立了LLM-as-a-Judge评估框架，确保在流式条件下的严格评估。
揭示“早期响应偏差”：研究发现当前模型过于“不耐烦”，倾向于立即猜测而非等待未来事件发生，这被定义为“早期响应偏差”，表明模型不仅在决定“说什么”上有困难，在决定“何时说”上同样存在挑战。

主要评估结果

时序不对称性：基线模型在即时和回溯问题上表现优异，但在前瞻任务上表现挣扎。
- 例如：Gemini 3 Pro在即时/回溯任务上得分为80.83/82.19，但在前瞻任务上降至16.40；Doubao-Seed-1.6得分为71.28/62.94/44.26，证实前瞻任务是瓶颈。
早期响应偏差普遍：强模型经常过早回答。
- 例如：Gemini 3 Pro的早期响应率为79.12%，Qwen3-VL-30B-A3B为91.33%，Qwen3-Omni-30B-A3B为97.89%。
无响应失败：轻量级模型（如MMDuet2）因错过响应窗口而导致高无响应率（59.21%），突显了触发响应的挑战。

数据获取与发布状态

预览数据集地址： https://huggingface.co/datasets/lucky-lance/PhoStream
完整发布计划：待论文被接受后，将发布以下资源：
- 自动化生成流程脚本
- 包含在线推理流程工具包的完整数据集
- 评估代码与评分标准
当前状态：该存储库正在积极开发中。

贡献者与联系

主要贡献者： Xudong Lu, Huankang Guan, Yang Bo, Jinpeng Chen, Xintong Guo, Shuhan Li, Fang Liu, Peiwen Sun, Xueying Li, Wei Zhang, Xue Yang, Rui Liu, and Hongsheng Li.
联系方式： luxudong@link.cuhk.edu.hk

引用

待发布。

搜集汇总

数据集介绍

构建方式

在移动计算与多模态智能交互的交叉领域，PhoStream数据集的构建采用了一种创新的自动化生成与人工验证相结合的流程。该流程首先通过自动化生成管道大规模创建符合流式场景特性的问答对，随后引入严格的人工审核环节以确保数据的准确性与现实贴合度。整个构建过程覆盖了四种典型的移动使用场景，并针对视频、音频及时序推理等十项核心能力进行标注，最终形成了包含5,572个开放式问答对的高质量基准数据集。

特点

PhoStream数据集的核心特征在于其首次将屏幕内与屏幕外场景统一于移动中心的流式评估框架之中。数据集包含的578段视频平均时长约为13.3分钟，模拟了真实、连续的手机使用环境。其独特之处在于不仅评估模型“说什么”的能力，更着重考察其在动态流媒体中“何时说”的决策能力，从而揭示了现有模型普遍存在的“过早响应”偏差，为流式多模态助手的研究提供了前所未有的挑战视角。

使用方法

使用PhoStream数据集时，研究者可通过其配套的在线推理管道进行模型评估，该管道模拟真实流式环境，以每秒一次的频率更新数据流，并采用60秒的滑动记忆窗口。评估框架支持后向、即时与前向三种推理模式的统一测试，并依托大语言模型作为评判者，对模型在连续音视频流中的理解与响应时机进行自动化、可复现的量化分析，为移动场景下全模态助手的能力测评提供了标准化工具。

背景与挑战

背景概述

随着移动设备的普及和人工智能技术的进步，构建能够实时理解手机屏幕内外多模态信息的智能助手成为人机交互领域的前沿课题。PhoStream数据集应运而生，由香港中文大学等机构的研究团队于近期创建，旨在为评估全能模态助手在真实手机使用场景下的流式处理能力提供首个以移动设备为中心的基准测试。该数据集的核心研究问题聚焦于模型在连续音视频流中如何准确判断应答时机与生成恰当内容，通过涵盖屏幕内外四种场景的5,572个开放式问答对，系统检验模型在视频、音频及时间推理等多维度的理解能力，为移动环境下的流式交互研究奠定了重要基础。

当前挑战

PhoStream数据集所针对的领域挑战在于，现有全能模态助手在流式处理中难以平衡即时响应与准确预测，即模型不仅需解决‘说什么’的内容生成问题，更需克服‘何时说’的时机决策难题。构建过程中的挑战则体现为：如何设计可扩展的自动化生成流程以确保标注效率与质量，同时建立模拟真实手机使用模式的在线推理管道，以每秒更新的流式数据与滑动记忆窗口来复现动态交互环境；此外，数据收集需统一屏幕内外多样场景，并涵盖十种不同能力标签，这对视频时长控制、场景平衡及标注一致性提出了较高要求。

常用场景

经典使用场景

在移动计算与多模态人工智能的交叉领域，PhoStream数据集为评估全模态助手在真实手机使用场景下的流式处理能力提供了基准。该数据集通过整合屏幕内与屏幕外场景，模拟了用户与手机交互时连续的音视频流环境，其经典使用场景在于测试模型在观看长达13.3分钟的视频流时，能否准确判断何时应答以及应答内容，涵盖了视频理解、音频分析与时序推理等多维度能力。

实际应用

在实际应用层面，PhoStream数据集可直接服务于移动端全模态助手的开发与优化，例如智能语音助手、实时视频分析工具以及增强现实应用。通过模拟真实手机使用场景，如导航、娱乐或工作流，该数据集帮助开发者测试系统在动态音视频流中的响应准确性，提升助手在复杂环境下的实用性与用户体验，为消费电子与嵌入式人工智能产品的迭代提供关键数据支持。

衍生相关工作

PhoStream数据集衍生了一系列经典研究工作，主要集中在流式多模态评估框架与偏差分析领域。例如，基于其揭示的早期响应偏差，后续研究探索了模型耐心训练策略与记忆窗口优化方法；同时，其自动化生成管道与在线推理管道为其他流式基准的构建提供了可扩展的范例，促进了移动场景下多模态评估标准的统一与演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集