iQIYI-VID

Name: iQIYI-VID
Creator: 爱奇艺公司
Published: 2019-04-22 13:41:27
License: 暂无描述

arXiv2019-04-22 更新2024-06-21 收录

下载链接：

http://challenge.ai.iqiyi.com/detail?raceId=5afc36639689443e8f815f9e

下载链接

链接失效反馈

官方服务：

资源简介：

iQIYI-VID是由爱奇艺公司创建的大规模视频数据集，专门用于多模态人物识别研究。该数据集包含60万个视频片段，涉及5000名名人，这些视频片段是从40万小时的在线视频中提取的，涵盖电影、综艺节目、电视剧和新闻广播等多种类型。所有视频片段都经过了严格的人工标注，标签错误率低于0.2%。iQIYI-VID数据集旨在推动多模态人物识别技术的发展，通过结合面部、头部、身体和音频等多种特征，提高人物识别的准确性。数据集的创建过程包括从大量视频中提取片段、自动过滤和人工标注等步骤，确保了数据集的质量和实用性。该数据集适用于评估和改进人物识别算法，特别是在复杂和多变的视频环境中。

iQIYI-VID is a large-scale video dataset created by iQIYI, specifically dedicated to multimodal person recognition research. This dataset contains 600,000 video clips involving 5,000 celebrities, which are extracted from 400,000 hours of online videos, covering various genres such as movies, variety shows, TV dramas, and news broadcasts. All video clips have undergone strict manual annotation, with a label error rate of less than 0.2%. The iQIYI-VID dataset aims to promote the development of multimodal person recognition technologies, by combining multiple features including facial, head, body, and audio information to improve the accuracy of person recognition. The dataset creation process includes steps such as extracting clips from massive videos, automatic filtering, and manual annotation, ensuring the quality and practicality of the dataset. This dataset is suitable for evaluating and improving person recognition algorithms, especially in complex and variable video environments.

提供机构：

爱奇艺公司

创建时间：

2018-11-19

搜集汇总

数据集介绍

构建方式

在视频理解领域，多模态人物识别面临数据稀缺的挑战。iQIYI-VID数据集的构建过程体现了严谨的系统化流程。该数据集从爱奇艺平台的海量在线视频中提取原始素材，涵盖电影、电视剧、综艺节目及新闻广播等多种类型。通过镜头分割技术将长视频切分为片段，并运用头部检测算法筛选出包含单一主要人物的有效片段。随后，结合人脸识别与衣物聚类方法为每个片段赋予初始身份标签，所有候选片段经过人工标注系统进行双重校验，确保标签错误率低于0.2%，最终形成包含50万名人物的60万个视频片段的高质量基准数据集。

特点

该数据集的核心特点在于其规模与多模态属性的深度融合。作为当前最大规模的多模态人物识别视频数据集，它囊括5000位名人的影像资料，视频总时长近800小时，覆盖亚洲、高加索、非洲及西班牙裔等多个人种群落，且性别分布均衡。数据集中不仅包含清晰的面部影像，还涵盖大量无可见人脸或人物未发声的片段，模拟了真实场景中人物识别的复杂性。此外，数据集中特意引入了超过16万个干扰视频，增强了模型在实际应用中的鲁棒性评估能力。

使用方法

该数据集为多模态人物识别研究提供了标准化的评估框架。研究者可将数据集按4:3:3的比例划分为训练集、验证集和测试集，其中测试集保持非公开以保障竞赛公平性。使用时可分别提取人脸、头部、身体及音频特征，通过NetVLAD模块或平均池化将帧级特征聚合为视频级表征。论文提出的多模态注意力模块能够自适应融合不同模态的特征，抑制异常信息的影响。评估采用平均精度均值指标，重点关注模型在包含干扰样本的复杂环境下的检索性能，推动跨模态特征融合技术的发展。

背景与挑战

背景概述

随着互联网视频内容的爆炸式增长，视频理解成为计算机视觉领域的重要研究方向，其中人物识别作为核心任务之一，面临着姿态多变、面部质量不一、服装与妆容差异等现实挑战。传统单模态识别方法，如人脸识别、行人重识别和说话人识别，虽在各自领域取得显著进展，但在复杂多变的真实视频场景中仍显不足。为应对这一局限，爱奇艺公司于2019年推出了iQIYI-VID数据集，该数据集包含来自40万小时在线视频的60万个视频片段，涵盖5000位名人，覆盖电影、综艺、电视剧等多种类型，通过精细的人工标注确保标签错误率低于0.2%。作为首个大规模多模态人物识别视频数据集，iQIYI-VID旨在推动融合面部、头部、身体及音频特征的多模态研究，为真实环境下的视频人物识别提供了重要的基准平台。

当前挑战

iQIYI-VID数据集所针对的多模态人物识别任务面临诸多挑战。在领域问题层面，真实视频中人物姿态变化、面部遮挡或模糊、服装更换以及音频来源混杂等因素，使得单一模态特征难以稳定识别身份；例如，面部不可见时需依赖身体或音频特征，而说话人识别易受背景噪音或配音干扰。构建过程中，数据集需从海量视频中提取并筛选仅包含主要人物的片段，通过头部检测、人脸识别与衣物聚类等自动方法初步标注，再经人工复核确保质量，这一流程涉及处理视频时长差异、多人场景过滤以及跨模态标签传播等复杂性，最终在保持数据多样性的同时，将标注错误率控制在极低水平，体现了数据构建的高精度要求。

常用场景

经典使用场景

在视频理解领域，iQIYI-VID数据集为多模态人物识别研究提供了关键支撑。该数据集从海量在线视频中提取了涵盖电影、综艺、电视剧等多样场景的60万视频片段，涉及5000位名人，其标注误差率低于0.2%。经典使用场景包括评估和开发融合人脸、头部、身体及音频特征的多模态识别模型，以应对真实视频中因姿态变化、面部遮挡、服装更换或语音缺失等复杂条件带来的挑战。

衍生相关工作

基于iQIYI-VID数据集，研究者们衍生出一系列经典工作，主要集中在多模态特征融合与自适应注意力机制上。例如，原论文提出的多模态注意力模块通过格拉姆矩阵捕捉特征间相关性，自适应加权融合不同模态信息；后续研究则进一步探索了跨模态对齐、时序建模以及噪声模态抑制等方向。这些工作不仅提升了数据集的基准性能，也为视频人物识别领域提供了新的架构设计思路和评估标准。

数据集最近研究