Demo-ICL-Bench
收藏github2026-03-03 更新2026-03-05 收录
下载链接:
https://github.com/dongyh20/Demo-ICL
下载链接
链接失效反馈官方服务:
资源简介:
Demo-ICL-Bench是一个包含1,200个样本的基准数据集,源自HowTo100M教学视频,旨在评估多模态大型语言模型(MLLMs)是否能够从提供的演示(文本或视频)中动态获取程序性知识以解决新任务。数据集包含三种不同的设置:文本演示ICL、视频演示ICL和演示选择。
Demo-ICL-Bench is a benchmark dataset containing 1,200 samples derived from the HowTo100M instructional videos. It is designed to evaluate whether Multimodal Large Language Models (MLLMs) can dynamically acquire procedural knowledge from provided demonstrations (text or video) to solve novel tasks. The dataset includes three distinct settings: in-context learning with textual demonstrations, in-context learning with video demonstrations, and demonstration selection.
创建时间:
2026-02-08
原始信息汇总
Demo-ICL 数据集概述
数据集基本信息
- 数据集名称:Demo-ICL (In-Context Learning for Procedural Video Knowledge Acquisition)
- 发布状态:已发布
- 发布日期:2026-02-09
- 相关论文:arXiv:2602.08439
- 许可证:Apache 2.0
- Hugging Face 地址:https://huggingface.co/datasets/Choiszt/demo-icl
数据集简介
Demo-ICL 探索了一个具有挑战性的新前沿:演示驱动的视频上下文学习。该数据集旨在评估多模态大语言模型(MLLMs)能否从提供的文本或视频演示中动态地获取程序性知识,以解决新任务。
基准测试:Demo-ICL-Bench
- 数据来源:基于 HowTo100M 教学视频构建。
- 样本数量:总计 1,200 个样本。
- 任务设计:要求模型根据上下文预测视频中的下一个步骤。
- 构建流程:采用从粗到精的流程确保高质量演示。使用 WhisperX 提供精确时间戳,使用 Qwen2.5-72B 将转录本总结为结构化指令并过滤无关步骤。通过搜索排名(粗粒度)和 LLM 语义相似性验证(细粒度)来识别和验证视频对,确保知识可迁移性。
基准测试包含三种设定
- 文本演示上下文学习:包含 500 个样本。模型必须从文本指令中检索相关程序步骤,以预测目标视频中的下一个动作。
- 视频演示上下文学习:包含 500 个样本。模型获得一个类似任务的参考视频,必须将该视觉程序性知识迁移到目标视频中。
- 演示选择:包含 200 个样本。这是一个更现实的设定,模型必须从包含干扰项的候选池中选择正确的演示,然后解决任务。
相关模型:Demo-ICL Model (7B)
- 基础模型:基于 Ola-Video 构建。
- 训练策略:采用新颖的两阶段训练策略。
- 视频监督微调:在多样化的视频/图像-文本数据上对 Ola-Video 进行微调,以建立基础理解。
- 信息辅助的 DPO:在训练期间利用辅助信息的新颖流程,使响应与人类偏好对齐,从而在无需辅助工具的情况下实现准确推理。
性能结果
在 Demo-ICL-Bench 上的表现
- 最先进性能:Demo-ICL (7B) 模型平均准确率达到 33.1%,超越了 Qwen2.5-VL-72B (29.5%),尽管其规模小了 10 倍。
- 正向迁移:与许多基线模型在提供视频演示时性能下降(负 $Delta_{ICL}$)不同,Demo-ICL 在使用视频演示时实现了 +4.4 的提升,使用文本演示时实现了 +14.0 的提升。
通用视频理解能力
- 在标准基准测试中保持稳健性能,在 VideoMMMU(知识获取)上达到 52.6%,超越了 Qwen2.5-VL-7B 和 LLaVA-OneVision-7B。
引用
如果使用此工作,请引用以下论文: bibtex @article{dong2025demoicl, title={Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition}, author={Dong, Yuhao and Tian, Shulin and Liu, Shuai and Ding, Shuangrui and Zang, Yuhang and Dong, Xiaoyi and Cao, Yuhang and Wang, Jiaqi and Liu, Ziwei}, journal={arXiv preprint arXiv:2602.08439}, year={2026} }
搜集汇总
数据集介绍
构建方式
在视频理解与程序性知识获取的前沿领域,Demo-ICL-Bench的构建遵循了一套由粗到精的严谨流程。该数据集源自HowTo100M教学视频库,首先利用WhisperX工具提取精确的时间戳信息,并通过Qwen2.5-72B大型语言模型对转录文本进行结构化总结,有效滤除了无关的操作步骤。为确保演示样本的质量与可迁移性,研究团队进一步采用搜索排名进行初步配对筛选,再借助语言模型进行语义相似性验证,从而构建出包含1200个高质量样本的基准测试集。
特点
Demo-ICL-Bench的核心特征在于其针对演示驱动情境学习的前瞻性设计。该基准测试精心划分了三种评估场景:文本演示情境学习要求模型从文本指令中检索相关步骤;视频演示情境学习则挑战模型跨视频迁移视觉程序知识;演示选择任务更贴近现实,模型需从包含干扰项的候选池中识别正确演示。这种多层次结构旨在系统评估多模态大模型动态获取并应用程序性知识的能力,而非依赖静态内部知识。
使用方法
该数据集主要用于评估多模态大语言模型在演示驱动情境学习中的性能。研究人员可将模型在文本演示、视频演示及演示选择三种设定下进行测试,通过模型对目标视频下一步动作的预测准确性来衡量其知识获取与迁移能力。基准测试结果能够清晰揭示模型是否真正理解了演示中的程序逻辑,并适用于模型训练策略的优化、跨任务知识迁移研究的推进,以及新一代视频理解模型的开发与验证。
背景与挑战
背景概述
在人工智能领域,多模态大语言模型(MLLMs)的视频理解能力正成为研究热点,尤其关注其从动态演示中获取程序性知识的潜力。Demo-ICL-Bench数据集由南洋理工大学S-Lab与上海人工智能实验室等机构的研究团队于2026年创建,旨在探索演示驱动的视频上下文学习新范式。该数据集基于HowTo100M教学视频构建,包含1,200个样本,核心研究问题是评估模型能否从文本或视频演示中动态学习程序性知识,以预测目标视频中的后续步骤。这一工作推动了视频理解从静态知识检索向动态知识迁移的转变,为多模态智能体的实际应用奠定了重要基础。
当前挑战
Demo-ICL-Bench所应对的领域挑战在于,传统多模态模型往往依赖内部静态知识,难以从外部演示中灵活获取并迁移程序性知识以解决新颖任务。具体而言,模型需在文本演示、视频演示及演示选择三种设置下,准确理解并转移跨任务的步骤逻辑,这对模型的推理与泛化能力提出了较高要求。在数据集构建过程中,挑战主要来自高质量演示对的筛选与验证:需要利用语音识别技术获取精确时间戳,并通过大语言模型过滤无关步骤,同时结合搜索排名与语义相似度评估,确保演示与目标任务间具有可迁移性,避免噪声干扰。
常用场景
经典使用场景
在视频理解与多模态学习领域,Demo-ICL-Bench数据集为评估模型在动态情境学习中的能力提供了标准化的测试平台。该数据集的核心应用场景聚焦于模型如何从文本或视频演示中获取程序性知识,以预测目标视频中的后续步骤。通过包含文本演示、视频演示及演示选择三种任务设置,数据集模拟了真实世界中模型需从有限示例中归纳并迁移知识的复杂过程,为研究模型在开放环境下的适应性学习行为奠定了实验基础。
实际应用
在实际应用层面,Demo-ICL-Bench数据集可广泛应用于智能辅助系统与自动化指导场景。例如,在智能家居或工业维护中,模型能够通过观察演示视频学习设备操作流程,从而为用户提供实时步骤指导;在教育领域,该数据集支持开发自适应学习工具,根据学生的操作演示生成个性化反馈。这些应用体现了数据集在提升人机交互智能性与效率方面的潜在价值。
衍生相关工作
基于Demo-ICL-Bench数据集,研究社区衍生了一系列经典工作,主要集中在多模态情境学习框架的优化与扩展。例如,Demo-ICL模型采用两阶段训练策略,结合视频监督微调与信息辅助直接偏好优化,显著提升了模型利用演示的能力;同时,该数据集也激发了针对视频语义对齐、跨任务知识迁移等方向的后续研究,为构建更鲁棒的可视化程序理解系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成



