AuroraCap-trainset

Hugging Face2024-10-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wchai/AuroraCap-trainset

下载链接

链接失效反馈

官方服务：

资源简介：

AuroraCap Trainset是一个包含超过2000万高质量图像/视频-文本对的数据集，用于训练AuroraCap模型。数据集分为三个训练阶段：预训练阶段、视觉阶段和语言阶段。每个阶段的数据分别存储在不同的jsonl文件中，分为projection、vision和language三个部分。数据集支持英语和中文。

创建时间：

2024-10-03

原始信息汇总

AuroraCap Trainset 数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 视觉问答
- 视频文本到文本
语言:
- 英语
- 中文
数据集大小: 10M < n < 100M

数据配置

默认配置:
- 投影分割:
  - projection/sharegpt4v/sharegpt4v.jsonl
  - projection/laion_cc_sbu/laion_cc_sbu.jsonl
  - projection/densefusion/densefusion.jsonl
  - projection/allava_caption_vflan/allava_caption_vflan.jsonl
  - projection/allava_caption_laion/allava_caption_laion.jsonl
- 视觉分割:
  - vision/sharegpt4v_pt/sharegpt4v_pt.jsonl
  - vision/m3it/m3it.jsonl
  - vision/llava_onevision/llava_onevision.jsonl
  - vision/laion/laion.jsonl
  - vision/cost/cost.jsonl
  - vision/chatterbox/chatterbox.jsonl
- 语言分割:
  - language/allava_caption_laion/allava_caption_laion.jsonl
  - language/allava_caption_vflan/allava_caption_vflan.jsonl
  - language/allava_instruct_laion/allava_instruct_laion.jsonl
  - language/allava_instruct_vflan/allava_instruct_vflan.jsonl
  - language/cambrian/cambrian.jsonl
  - language/evol/evol.jsonl
  - language/facecaption/facecaption.jsonl
  - language/llava_mix/llava_mix.jsonl
  - language/llavanext/llavanext.jsonl
  - language/m4/m4.jsonl
  - language/miradata/miradata.jsonl
  - language/sharegpt4v/sharegpt4v.jsonl
  - language/sharegpt4video_caption/sharegpt4video_caption.jsonl
  - language/sharegpt4video_qa/sharegpt4video_qa.jsonl

数据集使用

下载数据:
- 使用 load_dataset 函数下载不同分割的数据。
- 示例代码: python from datasets import load_dataset
  
  projection_data = load_dataset("wchai/AuroraCap-train", split="projection") vision_data = load_dataset("wchai/AuroraCap-train", split="vision") language_data = load_dataset("wchai/AuroraCap-train", split="language")
合并和提取数据:
- 使用 merge_tars.py 合并 tar 文件。
- 使用 extract.py 提取 tar 文件。

引用

@article{chai2024auroracap, title={AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark }, author={Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning}, journal={arXiv preprint arXiv:2410.03051}, year={2024} }

搜集汇总

数据集介绍

构建方式

AuroraCap-trainset的构建过程分为三个阶段，旨在通过多模态数据训练提升模型的视觉与语言理解能力。在预训练阶段，模型通过冻结预训练的视觉Transformer（ViT）和大型语言模型（LLM），仅训练视觉-语言连接器，以实现视觉特征与语言嵌入空间的对齐。在视觉阶段，解冻ViT并冻结LLM，利用公开的计算机视觉任务数据进行训练，以增强模型的泛化能力。在语言阶段，进行端到端训练，所有组件均可训练，使用高质量的多模态数据进行优化。

特点

AuroraCap-trainset包含超过2000万对高质量的图像/视频-文本对，覆盖了丰富的视觉与语言任务。数据集分为投影、视觉和语言三个部分，分别用于不同阶段的训练。投影部分侧重于视觉特征与语言嵌入的对齐，视觉部分专注于提升模型的视觉理解能力，语言部分则通过高质量的多模态数据优化模型的端到端表现。数据集支持中英双语，适用于多语言场景下的视觉问答和视频文本生成任务。

使用方法

使用AuroraCap-trainset时，首先需下载数据仓库，数据集以jsonl和图像/视频文件夹的形式存储。由于Hugging Face的政策限制，数据文件夹被压缩为tar文件，每个文件大小不超过40GB。用户可通过Hugging Face的`load_dataset`函数分别下载投影、视觉和语言部分的数据。下载后，需使用提供的脚本合并并解压tar文件，以便进一步处理和分析。具体代码示例和操作指南可在GitHub仓库中找到。

背景与挑战

背景概述

AuroraCap-trainset数据集由Wenhao Chai等研究人员于2024年发布，旨在推动视频详细描述领域的研究进展。该数据集依托于多模态学习框架，结合了视觉与语言模型，通过三个阶段（预训练、视觉阶段和语言阶段）的训练，实现了对视频内容的高效、精准描述。其核心研究问题在于如何通过大规模高质量的视频-文本对数据，提升模型在视频描述任务中的泛化能力与表现。AuroraCap-trainset的发布为视频理解与生成任务提供了重要的数据支持，推动了多模态学习领域的发展。

当前挑战

AuroraCap-trainset在构建与应用过程中面临多重挑战。首先，视频详细描述任务本身具有复杂性，要求模型能够准确捕捉视频中的动态信息并生成连贯的文本描述，这对模型的视觉与语言对齐能力提出了极高要求。其次，数据集的构建过程中，研究人员需要整合来自不同来源的多样化数据，确保数据的高质量与一致性，同时还需处理大规模数据的存储与处理问题。此外，模型训练过程中，如何在预训练、视觉阶段和语言阶段之间实现有效过渡，以最大化模型的性能，也是一个亟待解决的技术难题。

常用场景

经典使用场景

AuroraCap-trainset数据集在视觉问答和视频文本生成领域具有广泛的应用。该数据集通过提供超过2000万高质量图像/视频-文本对，支持多阶段训练模型，特别是在视觉特征与语言模型嵌入空间对齐方面表现出色。研究人员通常利用该数据集进行视觉语言模型的预训练、视觉阶段训练和语言阶段训练，以提升模型在复杂视觉任务中的表现。

实际应用

在实际应用中，AuroraCap-trainset数据集被广泛用于视频内容分析和自动化描述生成。例如，在视频监控、智能助手和多媒体内容管理系统中，该数据集训练的模型能够自动生成详细的视频描述，提升用户体验和系统效率。此外，该数据集还可用于教育、医疗等领域，帮助开发智能化的视觉语言交互工具，为多模态人工智能应用提供技术支持。

衍生相关工作

AuroraCap-trainset数据集的发布催生了一系列相关研究工作。例如，基于该数据集训练的AuroraCap模型在视频详细描述生成任务中取得了显著成果，成为该领域的基准模型之一。此外，该数据集还被用于开发新的视觉语言融合算法，如多模态对齐技术和跨模态生成模型，推动了视觉语言交互技术的进一步发展。相关研究不仅在学术界引起了广泛关注，也为工业界提供了实用的技术解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集