openvid-hd
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/Enderfga/openvid-hd
下载链接
链接失效反馈官方服务:
资源简介:
OpenVidHD-0.4M是一个从OpenVid-1M数据集中精选出来的高质量视频子集,包含大约433,509个平均时长为8秒的高分辨率.mp4视频片段。每个视频片段都伴有详细的元数据,如自然语言字幕、美学质量分数、动作强度分数、时间一致性分数、相机运动描述符、帧率和持续时间信息。
OpenVidHD-0.4M is a high-quality video subset curated from the OpenVid-1M dataset, containing approximately 433,509 high-resolution .mp4 video clips with an average duration of 8 seconds. Each video clip is accompanied by detailed metadata, including natural language subtitles, aesthetic quality scores, action intensity scores, temporal consistency scores, camera motion descriptors, frame rate and duration information.
创建时间:
2025-05-22
原始信息汇总
OpenVidHD-0.4M 数据集概述
📚 数据集简介
- OpenVidHD-0.4M 是 OpenVid-1M 数据集的高质量子集。
- 包含约 433,509 个视频片段,支持视频理解、生成和评估研究。
- 每个视频片段平均时长约 8 秒,格式为
.mp4高清文件。
📝 数据内容
元数据字段
| 字段 | 描述 |
|---|---|
video |
视频文件名 |
caption |
场景的自然语言描述 |
aesthetic score |
美学质量评分(范围约 0-10) |
motion score |
片段运动程度估计 |
temporal consistency score |
时间平滑度(范围 0-1) |
camera motion |
摄像机运动描述(如 static, moving 等) |
frame |
片段帧数 |
fps |
帧率 |
seconds |
片段时长(秒) |
📦 数据格式
- 视频文件以
.tar压缩包形式提供。 - 元数据以 JSON 文件形式提供,包含所有样本及其注释。
📄 许可证
- 采用与 OpenVid-1M 相同的许可证条款。
🙏 致谢
- 感谢 NJU-PCALab 发布的 OpenVid-1M 数据集作为本高清子集的基础。
搜集汇总
数据集介绍

构建方式
OpenVidHD-0.4M数据集是从OpenVid-1M数据集中精心筛选的高质量子集,专为支持高分辨率视频理解、生成与评估研究而构建。该数据集通过严格的质量控制流程,从原始百万级视频库中提取出约43万条视频片段,每段视频均配有自然语言描述、美学评分、运动强度评分等多维度元数据。视频采用MP4格式封装,平均时长约8秒,确保了数据的高清晰度与时效性。
使用方法
研究者可通过解压.tar格式的视频压缩包获取原始素材,配合标准化的JSON元数据文件实现高效访问。数据使用采用相对路径索引机制,视频文件名与元数据字段严格对应。该数据集特别适用于跨模态学习任务,例如可通过联合建模caption字段与视频内容开发图文生成模型,或利用各类评分指标训练视频质量评估算法。使用时需遵守OpenVid-1M的原始许可协议。
背景与挑战
背景概述
OpenVidHD-0.4M数据集作为OpenVid-1M的高质量子集,由NJU-PCALab团队精心构建,旨在推动高分辨率视频理解、生成与评估领域的研究。该数据集收录了约433,509条视频片段,每条视频均配备了丰富的语义标注信息,包括自然语言描述、美学质量评分、运动强度评分等多项关键指标。这些短时视频片段平均时长约8秒,以高清MP4格式存储,为计算机视觉与多媒体分析领域提供了重要的基准数据资源。
当前挑战
OpenVidHD-0.4M数据集面临的核心挑战主要体现在两个方面:在领域问题层面,高分辨率视频内容的多模态理解需要解决语义标注与视觉特征的对齐难题,同时美学评分等主观指标的量化评估仍缺乏统一标准;在构建过程中,原始视频的质量筛选与标注一致性保障耗费大量计算资源,动态场景下的运动特征提取与时间连续性保持也面临算法复杂度与计算效率的双重压力。这些挑战直接影响了视频生成模型训练时的数据利用效率与评估可靠性。
常用场景
经典使用场景
在视频理解与生成领域,OpenVid-HD数据集凭借其高质量的视频片段和丰富的语义标注,成为研究者探索多模态学习的理想选择。该数据集广泛应用于视频描述生成、动作识别以及视频质量评估等任务,其高分辨率和精确的元数据为模型训练提供了坚实基础。
解决学术问题
OpenVid-HD解决了视频分析领域长期存在的数据质量参差不齐、标注不统一的问题。通过提供美学评分、运动强度和时间一致性等量化指标,该数据集为视频生成模型的客观评估设立了新标准,显著提升了研究的可重复性和可比性。
实际应用
在实际应用中,OpenVid-HD的高质量视频片段被广泛应用于智能视频编辑、自动内容审核和增强现实等领域。其丰富的运动描述符和美学评分为短视频平台的内容推荐算法优化提供了宝贵的数据支持。
数据集最近研究
最新研究方向
随着视频内容生成与理解技术的快速发展,OpenVidHD-0.4M数据集凭借其高质量的视频片段和丰富的语义标注,正成为多模态学习领域的重要基准资源。该数据集在视频生成模型的训练与评估中展现出独特价值,特别是其包含的美学质量评分、运动强度指标和时序一致性分数,为生成视频的真实性和流畅性提供了量化标准。近期研究聚焦于如何利用这些结构化元数据提升文本到视频生成系统的可控性,例如通过美学分数指导模型生成更具视觉吸引力的内容,或结合运动描述符优化动态场景的物理合理性。与此同时,该数据集也被广泛应用于视频内容理解的跨模态对齐研究,探索自然语言描述与视觉特征之间的深层关联。
以上内容由遇见数据集搜集并总结生成



