five

Kwai Keye-VL

收藏
arXiv2025-07-03 更新2025-07-04 收录
下载链接:
https://huggingface.co/Kwai-Keye
下载链接
链接失效反馈
官方服务:
资源简介:
Kwai Keye-VL 是一个超大规模的多模态基础模型,专为理解短视频而设计,同时保持强大的通用视觉语言能力。该数据集由超过6000亿个token组成,特别注重高质量视频数据。数据集的创建过程包括数据清洗、高级模型重新描述和帧级标注。Kwai Keye-VL 应用于内容创作、推荐和电子商务等视频平台上的智能应用。

Kwai Keye-VL is an ultra-large-scale multimodal foundation model purpose-built for short video comprehension, while retaining robust general visual-language capabilities. This dataset consists of over 600 billion tokens, with a particular focus on high-quality video data. The dataset construction process includes data cleaning, advanced model-driven re-description, and frame-level annotation. Kwai Keye-VL has been deployed in intelligent applications across video platforms such as content creation, recommendation systems, and e-commerce.
提供机构:
快手科技
创建时间:
2025-07-03
搜集汇总
数据集介绍
main_image_url
构建方式
Kwai Keye-VL数据集的构建基于多模态大语言模型(MLLMs)的需求,特别关注短视频理解。该数据集包含超过6000亿标记的高质量视频数据,通过严格的筛选、重新标注和帧级注释确保数据质量。构建过程分为四个阶段的预训练和两个阶段的后训练,预训练阶段包括图像-文本匹配、视觉-语言对齐、多任务预训练和退火阶段,后训练阶段则专注于基础能力优化和高级推理能力的激发。数据去重和去污染策略确保了数据集的纯净性和可靠性。
特点
Kwai Keye-VL数据集的特点在于其大规模、高质量的视频数据覆盖,以及多样化的任务类型,包括图像描述、OCR与VQA、对象定位与计数、交错文本-图像数据和视频理解。数据集特别强调短视频的动态性和信息密度,通过多阶段训练策略实现了视觉与语言的强对齐。此外,数据集的冷启动数据混合和强化学习步骤进一步提升了模型的推理能力和异常行为纠正。
使用方法
Kwai Keye-VL数据集的使用方法包括四个主要步骤:预训练阶段的视觉-语言对齐和多任务学习,后训练阶段的基础能力优化和高级推理能力激发。用户可以通过Hugging Face和GitHub获取数据集和模型,利用提供的基准测试(如KC-MMBench)评估模型性能。数据集支持多种任务模式,包括思考模式、非思考模式和自动思考模式,用户可根据具体需求选择合适的模式进行模型训练和评估。
背景与挑战
背景概述
Kwai Keye-VL是由快手集团Keye团队于2025年7月推出的80亿参数多模态基础模型,旨在解决动态短视频理解这一数字媒体领域的核心挑战。该模型的研发基于两大支柱:一是超过6000亿标记的高质量视频数据集,二是创新的四阶段预训练与两阶段后训练方法。作为首个专注于短视频场景的通用视觉语言模型,Keye-VL在公开视频基准测试中创造了新性能记录,并发布了针对真实短视频场景的KC-MMBench评测基准,显著推动了多模态大模型在视频时代的应用发展。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,需突破传统多模态模型对静态图像的理解局限,解决短视频中动态事件序列、因果关系和跨模态(视觉-语音)信息融合等复杂认知任务;在构建过程层面,面临视频数据标注成本高(需逐帧OCR标注)、时序信息建模困难(需精确对齐视觉与语音时序)、以及高质量视频-文本对稀缺(需采用多模态大模型重标注技术)等难题。此外,模型还需平衡通用视觉语言能力与视频专项性能,避免过拟合短视频特征而损失图像理解能力。
常用场景
经典使用场景
Kwai Keye-VL数据集在短视频理解领域展现了卓越的性能,特别是在动态、信息密集的短视频内容分析中。该数据集通过构建超过6000亿标记的大规模高质量视频数据,为多模态大语言模型(MLLMs)提供了丰富的训练资源。其经典使用场景包括短视频内容摘要生成、视频帧级OCR标注、多视频匹配以及视频帧重排序等任务。这些场景充分体现了数据集在时序信息理解和跨模态对齐方面的优势。
衍生相关工作
该数据集衍生出多个重要研究方向:1)视频时序理解框架如Video-RAG通过引入长视频检索增强生成技术;2)混合偏好优化(MPO)方法提升了模型对齐能力;3)DeepEyes等项目探索了'图像思考'的代理推理模式;4)KC-MMBench作为首个面向现实短视频场景的评估基准,推动了领域标准化进程。相关技术已被Qwen2.5-VL、InternVL3等后续工作借鉴,形成了动态分辨率处理、3D RoPE位置编码等技术范式。
数据集最近研究
最新研究方向
Kwai Keye-VL数据集的最新研究方向主要集中在动态短视频理解与多模态大语言模型(MLLMs)的融合创新。随着短视频成为数字内容的主流载体,传统基于静态图像的MLLMs在时序信息密集的短视频理解上存在显著局限。该数据集通过构建超6000亿标记的高质量视频语料库,结合创新的四阶段预训练与两阶段后训练方法,重点突破视频-语言对齐、指令跟随及高级推理能力。其核心创新包括五模态“冷启动”数据混合策略(思考/非思考/自动思考/图像思考/视频数据),通过强化学习优化模型对推理时机的自主决策能力,并在自建的KC-MMBench短视频基准测试中展现显著优势。当前研究热点包括:1)视频编码架构的时序建模优化,2)基于强化学习的跨模态对齐稳定性提升,3)短视频场景下的细粒度时空关系理解。该数据集为构建视频时代的下一代MLLMs提供了关键训练范式和评估标准,对短视频内容生成、推荐系统及电子商务等应用具有重要价值。
相关研究论文
  • 1
    Kwai Keye-VL Technical Report快手科技 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作