five

openvid-lance

收藏
Hugging Face2025-12-30 更新2025-12-31 收录
下载链接:
https://huggingface.co/datasets/lance-format/openvid-lance
下载链接
链接失效反馈
官方服务:
资源简介:
OpenVid数据集(Lance格式)是一个包含937,957个高质量视频的数据集,以Lance格式存储,内联视频二进制数据、嵌入向量和丰富的元数据。该数据集支持文本到视频、视频分类等任务,主要语言为英语。关键特性包括内联视频存储、高效列访问、预构建索引、快速随机访问和HuggingFace集成。数据集模式包括视频二进制数据、视频描述、嵌入向量、美学评分、运动评分、时间一致性评分、相机运动类型等。

OpenVid dataset (Lance format) is a high-quality video dataset containing 937,957 videos, stored in Lance format with inline video binary data, embedding vectors and rich metadata. This dataset supports tasks such as text-to-video and video classification, with English as its primary language. Key features include inline video storage, efficient column-wise access, pre-built indexes, fast random access, and HuggingFace integration. The dataset schema covers video binary data, video descriptions, embedding vectors, aesthetic scores, motion scores, temporal consistency scores, camera motion types, and other relevant fields.
创建时间:
2025-12-27
原始信息汇总

OpenVid Dataset (Lance Format) 数据集概述

基本信息

  • 数据集名称: OpenVid Dataset (Lance Format)
  • 存储格式: Lance 格式
  • 数据来源: 原始 OpenVid 数据集 的 Lance 格式版本
  • 许可协议: CC-BY-4.0
  • 任务类别: 文本到视频生成、视频分类
  • 语言: 英语
  • 数据规模: 100K < n < 1M
  • 视频总数: 937,957 个高质量视频

核心特性

  • 内联视频存储: 视频以二进制块形式内嵌存储在数据集中,无需管理外部文件。
  • 高效列访问: 可仅加载元数据而不触及视频数据。
  • 预构建索引: 提供用于相似性搜索的 IVF_PQ 向量索引和用于字幕的全文搜索索引。
  • 快速随机访问: 可通过索引即时读取任何视频。
  • HuggingFace 集成: 支持从 Hub 以流模式直接加载。

数据模式

每条记录包含以下字段:

  • video_blob: 视频文件的二进制块
  • caption: 视频的文本描述
  • embedding: 1024 维向量嵌入
  • aesthetic_score: 视觉质量评分(0-5+)
  • motion_score: 运动量评分(0-1)
  • temporal_consistency_score: 帧一致性评分(0-1)
  • camera_motion: 摄像机运动类型(平移、缩放、静态等)
  • fps, seconds, frame: 视频属性

数据集统计

  • 总视频数: 937,957
  • 嵌入维度: 1024
  • 视频格式: MP4 (H.264)
  • 索引类型: IVF_PQ(向量)、全文搜索

使用方式

  • 快速浏览元数据: 可选择性加载元数据列,避免加载视频块。
  • 导出视频: 通过索引加载特定视频块并保存为文件。
  • 向量相似性搜索: 使用预构建的 IVF_PQ 索引进行最近邻搜索。
  • 全文搜索: 在视频字幕上使用全文搜索索引。
  • 质量筛选: 根据美学评分、运动评分等属性进行过滤。

加载说明

  • 从 HuggingFace 流式加载: ds = lance.dataset("hf://datasets/lance-format/openvid-lance")
  • 建议本地下载: 为避免 HuggingFace 免费层的速率限制,建议使用 huggingface-cli 下载数据集到本地后加载。

引用

如需引用,请使用以下文献: @article{nan2024openvid, title={OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation}, author={Nan, Kepan and Xie, Rui and Zhou, Penghao and Fan, Tiehan and Yang, Zhenheng and Chen, Zhijie and Li, Xiang and Yang, Jian and Tai, Ying}, journal={arXiv preprint arXiv:2407.02371}, year={2024} }

许可证

请查阅原始 OpenVid 数据集的许可证以了解使用条款。

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体数据处理领域,大规模高质量视频数据集的构建对推动文本到视频生成及视频分类研究至关重要。OpenVid-Lance数据集源自OpenVid-1M,通过Lance格式重构,将937,957个高质量视频以二进制内联存储方式整合,视频与丰富元数据如文本描述、视觉质量评分、运动特征及预计算嵌入向量共同封装于单一数据源。该构建方式采用事务一致性设计,确保查询与检索操作的原子性,同时优化编码以提升大规模二进制数据的存储效率,为高效数据管理奠定基础。
特点
该数据集的核心特征体现在其创新的存储架构与多维索引机制。视频以内联二进制形式嵌入,避免了外部文件管理的复杂性,支持惰性加载,仅当显式请求时才读取视频数据,显著降低I/O开销。数据集内置高效列访问能力,允许单独提取元数据而无需触及视频内容,并配备IVF_PQ向量索引与全文检索索引,分别支持基于嵌入向量的相似性搜索和字幕文本的快速语义查询。此外,视觉美学评分、运动强度及时间一致性等多维度标注为视频质量评估与内容分析提供了结构化依据。
使用方法
数据集的使用方法围绕Lance格式的高效查询接口展开。用户可通过HuggingFace平台直接流式加载,或下载至本地以避免网络速率限制。典型应用包括:选择性浏览元数据以快速筛选高质量视频,利用向量索引执行相似性检索,或通过全文检索定位特定语义内容。视频二进制数据的提取支持按索引精确获取,并可保存为本地文件。高级过滤功能允许结合美学评分、运动特征等多条件进行精细化数据子集构建,适用于文本到视频生成模型的训练与评估场景。
背景与挑战
背景概述
在人工智能驱动的视频生成与理解领域,大规模、高质量的视频数据集是推动模型性能突破的关键基石。OpenVid-Lance数据集作为OpenVid-1M数据集的高效存储格式版本,由Kepan Nan等研究人员于2024年构建并发布,其核心研究问题聚焦于为文本到视频生成及视频分类任务提供近百万级别的优质视频资源。该数据集不仅包含了丰富的视频内容与精准的文本描述,还创新性地采用了Lance格式进行存储,将视频二进制数据、多维度嵌入向量及元数据整合于一体,极大地优化了数据访问与管理效率,为后续的视频生成模型训练与多模态检索研究奠定了重要的数据基础。
当前挑战
该数据集旨在应对文本到视频生成领域的关键挑战,即如何从海量、异构的视频资源中筛选出高质量、内容连贯且与文本描述高度对齐的样本,以训练出能够生成视觉逼真、时序合理的视频模型。在构建过程中,研究人员面临多重挑战:首先,需要设计一套自动化与人工结合的质量评估体系,对原始视频的美学评分、运动连贯性、时序一致性等多维度指标进行精准量化与筛选;其次,将庞大的视频文件与复杂的元数据、嵌入向量高效整合,并实现快速检索与流式加载,对数据存储架构提出了极高要求,Lance格式的应用正是为了解决传统文件系统管理带来的性能瓶颈与一致性难题。
常用场景
经典使用场景
在视频生成与理解领域,OpenVid-Lance数据集以其内联视频存储和丰富元数据,为文本到视频生成任务提供了经典应用场景。研究者可基于文本描述检索高质量视频片段,利用预建的向量索引进行相似性搜索,快速定位视觉内容。该数据集支持高效元数据浏览与视频懒加载,避免了大规模视频文件管理的复杂性,为生成模型训练与评估提供了标准化基准。
实际应用
在实际应用中,OpenVid-Lance数据集可服务于内容创作、教育媒体与广告生成等场景。开发者能够基于文本描述快速检索匹配的视频素材,辅助自动化视频编辑工具生成个性化内容。其高质量视频片段与丰富元数据,也为虚拟现实、增强现实应用的视觉资源库构建提供了数据支撑,提升了多媒体内容生产的效率与多样性。
衍生相关工作
围绕该数据集衍生的经典工作,主要集中在文本到视频生成模型的优化与评估框架构建。研究者利用其大规模样本训练扩散模型与自回归架构,提升了生成视频的时序一致性与视觉保真度。同时,基于数据集的嵌入向量与元数据,发展了跨模态检索算法与视频质量评估指标,推动了多模态学习与生成对抗网络在视频领域的深度融合与应用拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作