five

15000小时短视频数据集

收藏
贵州省数据知识产权登记平台2026-04-01 更新2026-04-02 收录
下载链接:
https://gzdipp.gzsis.cn:12020/noticeDetail?id=2396&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
数据规格 总时长15000 小时,单条视频10–30 秒,分辨率、帧率、编码规范统一,便于批量训练。 文本标注规则 每条视频对应精准文本描述,涵盖场景、主体、动作、氛围、逻辑等语义信息,标注清晰无歧义。 清洗与质控规则 经过去重、去模糊、去水印、去违规内容、去低质片段,数据纯净度高、可用性强。 算法适配 天然适配CLIP、BLIP、LVM、文生视频模型、多模态因果建模、对比学习、掩码建模等主流训练范式。
提供机构:
中文在线集团股份有限公司
创建时间:
2026-03-03
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个规模达15000小时的短视频集合,专为多模态人工智能应用设计,每年更新一次。数据经过严格清洗和标注,每条视频时长10-30秒,具有统一的规格,适用于大模型训练、视频生成与编辑、内容理解等多种场景。其高质量和结构化特点使其能有效支持CLIP、BLIP等主流算法的预训练和微调。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作