TensorSense Data Generation SDK

github2024-07-09 更新2024-07-10 收录

下载链接：

https://github.com/tensorsense/datagen_sdk

下载链接

链接失效反馈

官方服务：

资源简介：

该SDK从YouTube视频中生成用于训练视频LLMs的数据集，包括视频片段和相应的注释文件。

This SDK generates datasets for training video LLMs from YouTube videos, which consist of video clips and their corresponding annotation files.

创建时间：

2024-07-03

原始信息汇总

TensorSense Data Generation SDK

功能描述

使用GPT生成搜索查询。
通过scrapetube搜索YouTube视频。
使用yt-dlp下载找到的视频和字幕。
使用PySceneDetect从每个视频中检测片段。
使用gpt4o（通过图像）分析每个片段，过滤片段并提取额外有用信息（如覆盖文本）。
使用GPT根据音频转录（如指令）和上一步从图像中提取的信息生成每个片段的注释。
将带有注释的片段聚合成一个文件。
使用ffmpeg将片段切割成单独的视频剪辑。

最终，您将获得一个包含有用视频剪辑和注释文件的目录，可用于训练模型。

安装

运行pip install -r requirements.txt。如果不起作用，尝试更新pip install -U -r requirements.txt。
创建.env文件，包含以下内容：
- OPENAI_API_KEY用于OpenAI
- AZURE_OPENAI_ENDPOINT和AZURE_OPENAI_API_KEY用于Azure
- OPENAI_API_VERSION=2023-07-01-preview
创建config.yaml文件，包含以下内容：
- openai.type: openai/azure
- openai.temperature: 值越大，输出越随机/有创意
- openai.deployment: OpenAI的模型/Azure的部署。需要能够进行结构化输出和处理图像。在Azure上测试了gpt4o。
- data_dir: 所有结果保存的路径。每个实验/数据集需要更改。

使用

请参考getting_started.ipynb。

如果您有自己的带有描述的视频，可以跳过下载/过滤步骤，直接生成注释！

搜集汇总

数据集介绍

构建方式

TensorSense Data Generation SDK通过一系列精细的步骤构建数据集，以支持视频语言模型的训练。首先，利用GPT生成搜索查询，随后通过scrapetube从YouTube上检索相关视频。下载的视频及其字幕通过yt-dlp工具获取。接着，采用CLIP模型结合手动算法检测视频片段，并利用GPT基于音频转录生成两步注释：先从转录中提取线索，再根据这些线索生成注释。最终，将带有注释的片段聚合到一个文件中，并通过ffmpeg将片段切割成独立的视频剪辑。

特点

该数据集的显著特点在于其高度自动化和精细化的数据处理流程。通过结合GPT和CLIP等先进技术，确保了数据的高质量和多样性。此外，数据集支持从YouTube视频中自动提取和处理信息，适用于多种视频语言模型的训练需求。生成的注释文件详细且结构化，便于后续模型的直接使用。

使用方法

使用TensorSense Data Generation SDK时，首先需安装相关依赖并配置环境变量，包括OpenAI和Azure的API密钥。接着，在notebook中设置配置参数，如OpenAI类型、温度参数和数据存储路径等。用户可参考getting_started.ipynb进行初始化设置。若用户已有自备视频及其描述，可跳过下载和过滤步骤，直接进行注释生成。最终，生成的视频剪辑和注释文件可用于训练视频语言模型。

背景与挑战

背景概述

TensorSense Data Generation SDK是由一支专注于视频语言模型训练的研究团队开发的工具，旨在从YouTube视频中生成用于训练视频大语言模型（Video LLMs）的数据集。该SDK的开发始于近年，主要研究人员和机构致力于通过自动化数据生成流程，提升视频内容理解和处理的效率。其核心研究问题是如何高效地从海量视频资源中提取有价值的信息片段，并生成相应的标注数据，以支持视频语言模型的训练。这一研究对视频分析和自然语言处理领域具有重要影响，为相关领域的技术进步提供了新的数据支持。

当前挑战

TensorSense Data Generation SDK在构建过程中面临多项挑战。首先，从YouTube等视频平台获取和处理大量视频数据，需要高效的爬虫技术和视频下载工具，如scrapetube和yt-dlp，这些工具的稳定性和效率是关键。其次，视频片段的检测和标注依赖于复杂的算法，如CLIP和GPT，这些算法的准确性和处理速度直接影响数据集的质量。此外，生成标注数据的过程涉及多步骤的文本处理和结构化输出，对算法的鲁棒性和灵活性提出了高要求。最后，数据集的整合和分割需要强大的多媒体处理工具，如ffmpeg，以确保生成的视频片段和标注文件的完整性和可用性。

常用场景

经典使用场景

TensorSense Data Generation SDK 数据集的经典使用场景主要集中在视频语言模型（Video LLMs）的训练上。通过该SDK，研究者能够从YouTube视频中生成高质量的训练数据集。具体流程包括使用GPT生成搜索查询，检索相关视频并下载，利用CLIP和手动算法检测视频片段，以及通过GPT基于音频转录生成注释。最终，这些片段和注释被整合成一个文件，并切割成独立的视频剪辑，为模型训练提供丰富的数据资源。

衍生相关工作

TensorSense Data Generation SDK 数据集的推出催生了一系列相关研究和工作。例如，有研究者基于该数据集开发了新的视频内容理解模型，显著提升了视频分析的准确性；还有研究团队利用该数据集进行跨模态学习，探索了视频和文本数据之间的深层关联。此外，该数据集还被用于开发新的视频推荐算法，通过结合视频内容和用户行为数据，实现了更精准的个性化推荐。这些衍生工作进一步推动了视频处理和分析领域的发展。

数据集最近研究