TaskGalaxy

github2025-02-22 更新2025-02-22 收录

下载链接：

https://github.com/Kwai-YuanQi/TaskGalaxy

下载链接

链接失效反馈

官方服务：

资源简介：

TaskGalaxy是一个大规模的多模态指令微调数据集，包含19,227个层次任务类型和413,648个样本。

TaskGalaxy is a large-scale multimodal instruction tuning dataset, consisting of 19,227 hierarchical task categories and 413,648 samples.

创建时间：

2025-02-14

原始信息汇总

TaskGalaxy 数据集概述

数据集简介

TaskGalaxy 是一个大规模的多模态指令微调数据集，旨在通过增加任务多样性来提升多模态视觉语言模型在开放世界应用中的性能。该数据集由19,227个层次化任务类型和413,648个样本组成。

抽象描述

TaskGalaxy 通过使用GPT-4o从手动定义的小任务集合扩展，增加任务多样性，并结合CLIP和GPT-4o筛选与开源图像最佳匹配的任务，生成相关的问答对。该自动化过程确保了任务多样性和数据质量，减少了手动干预。将TaskGalaxy集成到LLaVA-v1.5和InternVL-Chat-v1.0模型中，在16个基准测试中显示出显著的性能提升，证明了任务多样性在模型性能中的关键作用。

数据流程

数据集利用GPT-4o自动生成相关问答对。
多个模型被用于确保样本质量。
数据集的构建流程包含自动化过程，减少了手动干预。

搜集汇总

数据集介绍

构建方式

TaskGalaxy数据集的构建采取自动化手段，利用GPT-4o从少量手动定义的任务出发，扩展至19,227个层次化任务类型，并通过CLIP与GPT-4o的协同过滤，确保所选图像与任务的高度相关性。该过程还生成相应的问答对，并通过运用多个模型来确保样本质量，实现了任务多样性和数据质量的自动化提升，大幅减少了对人工干预的依赖。

特点

TaskGalaxy数据集以其规模宏大、任务类型丰富而显著。包含413,648个样本，涵盖了19,227个层次化的任务类型，这些任务类型的多样性对于提升多模态视觉语言模型在开放世界应用中的泛化能力至关重要。数据集的自动化构建方法不仅提高了任务多样性，还优化了数据质量，为模型训练提供了更为全面的支持。

使用方法

使用TaskGalaxy数据集时，研究者可以将其纳入LLaVA-v1.5和InternVL-Chat-v1.0等模型中，以观测性能的显著提升。该数据集易于集成至现有的多模态指令微调框架中，通过标准的微调流程，即可实现模型在多任务上的适应性和准确性提升，进而推动多模态视觉语言模型在开放环境下的应用发展。

背景与挑战

背景概述

TaskGalaxy数据集是在模型架构、训练技术以及高质量数据驱动下，多模态视觉语言模型在开放世界应用中日渐重要的背景下创建的。该数据集由19,227个层次性任务类型和413,648个样本组成，旨在解决多模态视觉语言模型因缺乏特定任务数据而导致泛化能力不足和输出偏见的问题。TaskGalaxy数据集的构建，始于2025年ICLR会议的研究，由研究人员利用GPT-4o扩展任务多样性，并通过CLIP和GPT-4o筛选与开源图像最佳匹配的任务，生成相关的问题-答案对。该数据集的引入显著提高了LLaVA-v1.5和InternVL-Chat-v1.0模型在16个基准测试中的性能，凸显了任务多样性在模型训练中的重要性。

当前挑战

尽管TaskGalaxy数据集在增强任务多样性和数据质量方面取得了显著进展，但其构建过程中仍面临诸多挑战。首先，自动化生成任务类型需要精确的模型匹配和筛选策略，以确保生成的任务与图像的关联性和样本质量。其次，尽管数据集规模庞大，但如何确保所涵盖的任务类型能够全面代表现实世界中的多样性仍是一大挑战。此外，数据集的质量控制和错误率评估也是保证数据集实用性和可靠性的关键环节。

常用场景

经典使用场景

TaskGalaxy数据集作为多模态视觉语言模型领域的重要资源，其经典使用场景主要在于为模型提供大规模的任务类型和样本，以促进多模态指令微调技术的发展。该数据集通过自动化的数据生成流程，大幅提升了任务多样性，为模型训练提供了丰富而多样化的学习材料，使得模型能够更好地理解和执行各种复杂的视觉任务。

解决学术问题

该数据集有效解决了学术研究中多模态模型面临的任务数据不足问题，其海量的任务类型和样本有助于模型克服泛化能力不足和输出偏见的缺陷。TaskGalaxy通过自动化手段生成多样任务，降低了人工标注的工作量，提高了数据集构建的效率和质量，对于推动多模态视觉语言模型的性能提升具有重要意义。

衍生相关工作

TaskGalaxy数据集的构建，催生了一系列相关的经典研究工作。例如，结合该数据集对LLaVA-v1.5和InternVL-Chat-v1.0模型进行微调，显著提高了模型在多个基准测试中的性能。这些研究成果进一步证明了任务多样性对于提升多模态视觉语言模型性能的关键作用，为未来的研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集