LiveFood

Name: LiveFood
Creator: 字节跳动公司
Published: 2023-12-12 18:42:26
License: 暂无描述

arXiv2023-12-12 更新2024-06-21 收录

下载链接：

https://github.com/ForeverPs/IncrementalVHD_GPE

下载链接

链接失效反馈

官方服务：

资源简介：

LiveFood数据集是由字节跳动公司收集的高质量美食视频数据集，包含超过5100个视频，总时长197小时，分为四个精细标注的领域：食材、烹饪、展示和食用。该数据集旨在支持增量视频亮点检测任务，特别是在实际应用中，关注的亮点领域和训练数据随时间增加。数据集的创建过程涉及从在线视频中精选内容，并通过专业人员进行质量控制和精细标注。LiveFood数据集适用于视频亮点检测和领域增量学习任务，旨在解决现有方法在处理不断增加的亮点领域和数据时的局限性。

The LiveFood dataset is a high-quality food video dataset collected by ByteDance. It contains over 5,100 videos with a total duration of 197 hours, and is divided into four finely annotated domains: ingredients, cooking, display, and consumption. This dataset aims to support incremental video highlight detection tasks, especially in real-world applications where the target highlight domains and training data increase over time. The creation of the dataset involves selecting content from online videos, followed by quality control and fine annotation conducted by professionals. The LiveFood dataset is applicable to video highlight detection and domain incremental learning tasks, and is designed to address the limitations of existing methods when handling the growing number of highlight domains and associated data.

提供机构：

字节跳动公司

创建时间：

2022-09-12

搜集汇总

数据集介绍

构建方式

LiveFood 数据集的构建过程严格遵循了科学研究的规范和伦理标准。首先，从公共视频平台上收集了大量高分辨率的美食视频，并经过筛选，确保视频内容与美食相关，同时过滤掉时长过短或过长的视频。然后，对视频进行逐帧标注，定义了四个领域：食材、烹饪、呈现和食用。标注过程采用了严格的质控机制，确保标注的准确性和一致性。最终，LiveFood 数据集包含超过 5,100 个视频，总时长超过 197 小时，为视频亮点检测和领域增量学习任务提供了新的测试平台。

特点

LiveFood 数据集具有以下特点：1) 视频内容丰富多样，涵盖了食材、烹饪、呈现和食用四个领域，能够满足不同研究需求；2) 视频质量高，标注精细，为深度学习模型的训练提供了充足的数据支持；3) 数据集设计考虑了领域增量学习的特点，能够帮助研究者探索新的研究方向；4) 数据集规模较大，能够有效训练深度学习模型，提高模型的泛化能力。

使用方法

使用 LiveFood 数据集时，需要遵循以下步骤：1) 数据集准备：将数据集下载到本地，并进行解压；2) 数据预处理：对视频进行解码、帧提取等操作，以便进行后续的特征提取和模型训练；3) 模型训练：选择合适的模型架构，并使用 LiveFood 数据集进行训练；4) 模型评估：使用测试集评估模型的性能，并进行必要的参数调整；5) 应用场景：将训练好的模型应用于视频亮点检测、视频摘要等实际场景中。

背景与挑战

背景概述

视频亮点检测（VHD）是计算机视觉领域中的一个活跃研究方向，旨在从原始视频输入中定位最能吸引用户的片段。然而，现有的VHD方法大多基于封闭世界假设，即预先定义一个固定数量的亮点类别，并且所有训练数据都预先可用。因此，现有方法在不断增加的亮点领域和训练数据方面存在可扩展性差的问题。为了解决上述问题，本文提出了一种名为全局原型编码（GPE）的新型视频亮点检测方法，该方法通过参数化原型逐步学习以适应新领域。为了促进这一新的研究方向，我们收集了一个名为LiveFood的精细注释数据集，其中包含超过5100个现场美食视频，这些视频由四个领域组成：食材、烹饪、展示和食用。据我们所知，这是第一个在增量学习设置中探索视频亮点检测的工作，为将VHD应用于随着时间的推移，关注亮点领域和训练数据不断增加的实际场景开辟了新的领域。通过广泛的实验，我们证明了GPE的有效性。值得注意的是，GPE在LiveFood上优于流行的领域增量学习方法，在所有领域都实现了显著的mAP改进。对于经典数据集，GPE也产生了与先前艺术作品相当的性能。代码可在以下网址获取：https://github.com/ForeverPs/IncrementalVHD。

当前挑战

增量视频亮点检测（VHD）面临着两个主要障碍：具有领域注释的高质量VHD数据集和针对此任务量身定制的强大模型。现有的VHD研究数据集，包括SumMe、TVSum、Video2GIF、PHD和QVHighlights，都存在以下三个缺点：（1）只能访问视频帧的特征表示，而不是原始视频，从而限制了更强大的端到端模型的应用；（2）大多数数据集只有数量有限、持续时间短、注释粗略的视频，这对于训练深度模型来说是不够的；（3）它们都没有视频亮点领域或类别标签，因此不能直接用于增量学习。为了弥合VHD和增量学习之间的差距，我们首先从现场视频中收集了一个高质量的美食数据集LiveFood。它包含超过5100个精心挑选的视频，总共有197个小时。四个领域被精细注释，例如食材、烹饪、展示和食用。这些相关但独特的领域为增量视频亮点检测（VHD）任务提供了一个新的测试平台。为了解决这个新任务，我们提出了一个竞争性模型：全局原型编码（GPE）来逐步学习新的亮点概念，同时保留以前视频领域/数据中学到的知识。

常用场景

经典使用场景

在视频内容分析与推荐领域，LiveFood数据集为视频亮点检测提供了宝贵的资源。该数据集包含超过5100个精心标注的美食视频，涵盖了食材、烹饪、呈现和食用四个领域，为研究人员提供了丰富的数据基础。通过使用LiveFood数据集，研究人员可以训练和评估视频亮点检测模型，从而识别并提取视频中最具吸引力的片段，用于视频摘要、个性化推荐等应用场景。

解决学术问题

LiveFood数据集解决了视频亮点检测领域中的增量学习问题。传统的视频亮点检测方法通常基于封闭世界假设，即预先定义固定的亮点类别和训练数据集。然而，在现实世界中，视频内容和用户兴趣是不断变化的，这要求视频亮点检测模型能够适应新的领域和数据。LiveFood数据集通过提供细粒度的领域标注，使得研究人员可以探索增量学习算法，从而提高视频亮点检测模型的扩展性和鲁棒性。

衍生相关工作

LiveFood数据集的提出促进了视频亮点检测领域中的增量学习研究。基于LiveFood数据集，研究人员提出了多种增量学习算法，例如全局原型编码（GPE）模型。GPE模型通过学习可扩展和参数化的原型，能够在新的领域和数据上增量地识别视频亮点，同时保留已学习的知识。此外，LiveFood数据集还推动了视频内容分析与生成技术的发展，例如基于深度学习的视频摘要、个性化推荐等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集