cota-mantis

Name: cota-mantis
Creator: Salesforce
Published: 2024-12-10 14:55:51
License: 暂无描述

Hugging Face2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Salesforce/cota-mantis

下载链接

链接失效反馈

官方服务：

资源简介：

TACO数据集包含293K条由GPT-4o生成的合成思维链和行动链，涉及15种行动，如OCR、深度估计、计算器等。这些数据用于微调多模态语言模型，以生成思维链和行动链来回答复杂的视觉问题。数据集的生成过程包括使用GPT-4o和Python程序生成大量的合成数据，并通过数据过滤和混合技术获得高质量的子集。数据集的来源包括Cauldron和Mantis-Instruct，这些数据集收集自COCO、AOKVQA、ScienceQA、Visual Genome等多个现有数据集。

提供机构：

Salesforce

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

该数据集cota-mantis通过GPT-4o生成合成链式思维与行动（CoTA）轨迹，结合Python程序构建而成。具体而言，数据集包含超过100万条合成CoTA轨迹，经过数据过滤与混合技术，最终筛选出293,105条高质量样本。这些样本涵盖15种不同的行动，如OCR、深度估计、计算器等，并引入‘终止’行动以提供最终答案。数据集的构建旨在为多模态大动作模型提供复杂推理与行动路径的学习资源。

特点

cota-mantis数据集的核心特点在于其合成链式思维与行动的复杂性与多样性。数据集包含293,105条高质量CoTA轨迹，涉及15种不同的行动，涵盖视觉、语言和数学推理等多个领域。此外，数据集通过GPT-4o生成，确保了思维与行动的连贯性与逻辑性，为多模态语言模型的微调提供了丰富的训练资源。

使用方法

cota-mantis数据集主要用于微调多模态语言模型，以生成链式思维与行动来解答复杂的视觉问题。用户可通过HuggingFace的datasets库直接加载该数据集，并结合Mantis代码库进行模型训练。对于其他多模态语言模型，用户需根据具体模型的对话格式进行适配。值得注意的是，该数据集不适用于模型测试，仅适用于训练阶段。

背景与挑战

背景概述

cota-mantis数据集由Salesforce AI Research团队于2024年创建，旨在推动多模态大动作模型的研究。该数据集的核心研究问题是如何通过合成思维与动作链（Chains-of-Thought-and-Action, CoTA）来提升复杂、多步骤、多模态任务的性能。通过GPT-4o和Python程序生成了超过100万条合成CoTA轨迹，并经过数据过滤与混合技术，最终形成了包含293,105条高质量CoTA示例的子集。该数据集不仅为多模态推理模型提供了丰富的训练资源，还为开放源码的多模态模型设定了新的标准，显著提升了模型在涉及OCR、数学推理和空间推理等任务中的表现。

当前挑战

cota-mantis数据集在构建过程中面临多项挑战。首先，生成高质量的合成CoTA轨迹需要复杂的工具调用和推理过程，这要求模型具备强大的多模态理解和执行能力。其次，数据过滤和混合技术的应用增加了数据处理的复杂性，确保最终数据集的质量和多样性。此外，该数据集继承了GPT-4o的偏见，且动作集主要集中在视觉工具上，限制了其在更广泛领域中的应用。这些挑战不仅影响了数据集的构建，也对模型的训练和应用提出了更高的要求。

常用场景

经典使用场景

cota-mantis数据集的经典使用场景主要集中在多模态语言模型的微调上，特别是用于生成复杂的多步骤推理和行动链。该数据集通过包含15种不同的行动（如OCR、深度估计、计算器等）和终止行动，使得模型能够在推理过程中调用外部工具，并整合思想和行动输出，从而生成连贯的响应。这种设计使得模型能够处理涉及视觉、数学和空间推理的复杂任务，显著提升了多模态任务的表现。

衍生相关工作

基于cota-mantis数据集，已衍生出多项经典工作，特别是在多模态语言模型的训练和评估方面。例如，研究者们利用该数据集开发了TACO模型，该模型在多个基准测试中表现优异，尤其是在涉及OCR、数学推理和空间推理的多模态任务中。此外，该数据集还启发了其他研究者探索更复杂的多模态推理任务，推动了多模态学习领域的进一步发展。

数据集最近研究