TaskGalaxy
收藏arXiv2025-02-14 更新2025-02-18 收录
下载链接:
https://github.com/Kwai-YuanQi/TaskGalaxy
下载链接
链接失效反馈官方服务:
资源简介:
TaskGalaxy数据集是由快手科技提出的一个大规模多模态指令微调数据集,包含19227个层次化的任务类型和约413648个视觉问答样本。该数据集通过利用GPT-4o从少量手动定义的任务类型出发,自动扩展出多样化的任务类型,并通过CLIP模型和GPT-4o生成相关的问题答案对,再通过多个模型筛选以保证数据质量。该数据集在多模态场景中极大地提升了任务类型的多样性,可应用于提升多模态模型在各类任务中的泛化能力。
TaskGalaxy Dataset is a large-scale multimodal instruction tuning dataset proposed by Kuaishou Technology. It encompasses 19227 hierarchical task categories and approximately 413,648 visual question answering (VQA) samples. To construct this dataset, GPT-4o is first employed to automatically expand diverse task categories from a small number of manually defined task types. Then, relevant question-answer pairs are generated via CLIP and GPT-4o, followed by data filtering with multiple models to ensure data quality. This dataset greatly enhances the diversity of task categories in multimodal scenarios, and can be applied to improve the generalization ability of multimodal models across various tasks.
提供机构:
快手科技
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
TaskGalaxy数据集的构建采用了半自动化的流程,首先由人工定义一系列基础的多模态图像任务类型作为种子,包括OCR、图像描述、逻辑推理等。然后,通过精心设计的提示,利用GPT-4o迭代扩展任务类型,生成新的、更细粒度的任务类型。此外,从多个开源数据集中收集了多样化的图像,并使用CLIP模型筛选与图像最匹配的任务类型。GPT-4o被用来生成与每个任务类型相关的问答对,并使用三个开源的多模态模型来评分和筛选生成的对,确保样本质量。最后,通过筛选和过滤,得到包含19,227个任务类型和413,648个样本的高质量数据集。
特点
TaskGalaxy数据集的特点在于其任务类型的多样性和数据质量的高标准。该数据集包含了19,227个层次化的任务类型,覆盖了从OCR和图像描述到细粒度物体识别和复杂逻辑推理等多种任务。此外,该数据集采用了几乎完全自动化的流程来创建包含多种任务类型的综合数据集,并且可以通过添加高质量的图像、任务类型和问答样本来灵活扩展。TaskGalaxy数据集还包含了丰富的、高质量的与任务相关的问答数据,并且具有可扩展性。
使用方法
TaskGalaxy数据集可以用于多模态模型的监督微调,以提高模型在视觉问答、图像描述、物体检测等任务上的性能。用户可以将TaskGalaxy数据集与原始的监督微调数据结合使用,进行模型的微调。此外,用户还可以根据需要调整TaskGalaxy数据集中的任务类型和样本数量,以满足特定的模型训练需求。
背景与挑战
背景概述
TaskGalaxy 是一个大规模的多模态指令微调数据集,旨在解决多模态视觉语言模型在开放世界应用中的性能受限问题。该数据集由快手科技的研究人员于 2025 年创建,并在 ICLR 2025 会议上发表。TaskGalaxy 包含 19,227 个层次化的任务类型和 413,648 个样本,利用 GPT-4o 自动扩展任务多样性,并通过 CLIP 和 GPT-4o 筛选出与开源图像最匹配的任务类型,生成相关的问答对。该数据集的创建对多模态模型在图像描述、对象检测、视觉问答等相关领域的研究和应用产生了重要影响。
当前挑战
TaskGalaxy 数据集面临的主要挑战包括:1) 如何在预训练阶段提高多模态模型的任务多样性,以增强其泛化能力;2) 如何构建一个包含丰富任务类型的高质量数据集,同时减少人工干预。为了解决这些挑战,TaskGalaxy 提出了一个几乎完全自动化的数据生成流程,通过设计专门的提示,利用 GPT-4o 扩展任务类型,并利用 CLIP 和其他开源模型进行匹配和筛选,从而生成高质量的问答对。此外,TaskGalaxy 还通过实验验证了任务多样性对多模态模型性能的提升作用,为未来的多模态指令微调数据集构建提供了重要的参考。
常用场景
经典使用场景
TaskGalaxy数据集是一个大规模的多模态指令微调数据集,包含19,227个层次化的任务类型和413,648个样本。该数据集的主要应用场景包括图像描述、目标检测、视觉问答等多个视觉语言领域,以及逻辑推理、情感分析、内容创作等非视觉语言领域。通过将TaskGalaxy数据集集成到LLaVA-v1.5和InternVL-Chat-v1.0模型中,研究人员观察到在16个基准测试上的性能显著提升,这表明TaskGalaxy数据集在提高多模态模型的泛化能力方面具有重要作用。
实际应用
TaskGalaxy数据集在实际应用中可用于提高多模态模型的性能和泛化能力,从而改善开放世界应用中的用户体验。例如,在图像描述任务中,TaskGalaxy可以帮助模型生成更准确、更丰富的描述;在目标检测任务中,TaskGalaxy可以帮助模型识别更多类型的对象;在视觉问答任务中,TaskGalaxy可以帮助模型理解更复杂的指令和问题。此外,TaskGalaxy还可以用于开发新的多模态模型和应用,例如智能助手、虚拟现实、增强现实等。
衍生相关工作
TaskGalaxy数据集的发布推动了多模态指令微调数据集的发展,并启发了许多相关研究。例如,Vision-Flan数据集通过手动标注的方式收集了OCR和目标检测等任务,但任务类型有限;VisionLLM v2数据集则聚合了大量的任务类型,但需要设计特定的解码器,限制了数据集的泛化能力。TaskGalaxy数据集的出现为解决这些问题提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



