cota-mantis

Hugging Face2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/agentstudio-family/cota-mantis

下载链接

链接失效反馈

官方服务：

资源简介：

TACO数据集包含293K条由GPT-4o生成的合成思维链和行动链，涉及15种行动，如OCR、深度估计、计算器等。这些数据用于微调多模态语言模型，以生成思维链和行动链来回答复杂的视觉问题。数据集的生成过程包括使用GPT-4o和Python程序生成大量的合成思维链和行动链，并通过数据过滤和混合技术获得高质量的子集。数据集的来源包括Cauldron和Mantis-Instruct，这些数据集收集自COCO、AOKVQA、ScienceQA、Visual Genome等。数据集的用途是训练多模态语言模型，特别是用于复杂的多步骤和多模态任务。

创建时间：

2024-12-04

原始信息汇总

数据集概述

数据集信息

许可证: CC BY 4.0
特征:
- id: 字符串类型
- conversation: 列表类型，包含 content（字符串类型）和 role（字符串类型）
- metadata: 结构类型，包含 dataset（字符串类型）和 task_instruction（字符串类型）
- images: 序列类型，字符串
分割:
- cota_293k: 包含 293105 个样本，占用 684640621 字节
下载大小: 107061603 字节
数据集大小: 684640621 字节

数据集详情

名称: CoTA 293K
描述: 该数据集包含 293K 个由 GPT-4o 生成的合成思维链和动作链（Chains-of-Thought-and-Action, CoTA）。
包含的动作: OCR, LocalizeObjects, GetObjects, EstimateRegionDepth, EstimateObjectDepth, Crop, ZoomIn, QueryLanguageModel, GetImageToImagesSimilarity, GetImageToTextsSimilarity, GetTextToImagesSimilarity, DetectFaces, QueryKnowledgeBase, Calculate, SolveMathEquation, Terminate
用途: 用于微调多模态语言模型，以生成思维链和动作链来回答复杂和困难的视觉问题。
数据来源: 来自 Cauldron 和 Mantis-Instruct，收集自 COCO, AOKVQA, ScienceQA, Visual Genome 等数据集。

数据集使用

直接使用: 可用于训练多模态语言模型，特别是使用 Mantis 代码库。
超出范围的使用: 不应用于测试模型。

数据集限制

偏见和风险: 思维链和动作链由 gpt-4o-2024-08-06 生成，因此继承了其偏见；动作主要集中在视觉工具和一些通用工具上。

引用

@misc{ma2024tacolearningmultimodalaction, title={TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action}, author={Zixian Ma and Jianguo Zhang and Zhiwei Liu and Jieyu Zhang and Juntao Tan and Manli Shu and Juan Carlos Niebles and Shelby Heinecke and Huan Wang and Caiming Xiong and Ranjay Krishna and Silvio Savarese}, year={2024}, eprint={2412.05479}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.05479}, }

搜集汇总

数据集介绍

构建方式

该数据集cota-mantis通过GPT-4o生成了一百万多条合成链式思维与行动（CoTA）轨迹，经过数据筛选和混合技术，最终提取出293,105条高质量的CoTA示例。这些示例涵盖了15种不同的行动，如OCR、深度估计、计算器等，并添加了‘终止’行动以提供最终答案。数据集的构建过程结合了多种现有数据集，如COCO、AOKVQA等，确保了多样性和复杂性。

特点

cota-mantis数据集的主要特点在于其多模态性和复杂性。每条CoTA轨迹不仅包含思维链，还涉及多种视觉和语言工具的调用，如OCR、深度估计等。此外，数据集的多样性来源于其广泛的源数据集，包括COCO、AOKVQA等，使得模型能够在多样的视觉和语言任务中进行训练。

使用方法

该数据集主要用于微调多模态语言模型，以生成复杂的思维与行动链来回答视觉问题。用户可以直接使用Mantis代码库进行模型训练，或根据特定模型的需求调整对话格式。值得注意的是，该数据集不适用于模型测试，而应专注于模型的训练和微调。

背景与挑战

背景概述

cota-mantis数据集由Salesforce AI Research团队于2024年创建，旨在推动多模态大动作模型的研究。该数据集的核心研究问题是如何通过合成思维与动作链（Chains-of-Thought-and-Action, CoTA）来提升模型在复杂、多步骤、多模态任务中的表现。通过使用GPT-4o生成100万+的合成CoTA轨迹，并经过数据过滤与混合技术，最终形成了包含293K高质量CoTA样本的子集。这一数据集不仅为模型提供了复杂的推理与动作路径学习能力，还在多个基准测试中超越了现有的指令调优模型，标志着多模态推理领域的新标准。

当前挑战

cota-mantis数据集面临的挑战主要集中在以下几个方面：首先，生成高质量的CoTA轨迹依赖于GPT-4o的输出，这可能导致数据中继承GPT-4o的偏见。其次，数据集中的动作主要集中在视觉工具（如深度估计）和通用工具（如知识库查询），这限制了其在更广泛领域中的应用。此外，数据集的构建过程中，如何有效过滤和混合不同来源的数据，确保数据质量与多样性，也是一项技术挑战。最后，该数据集主要用于模型微调，而非测试，这限制了其在模型评估中的直接应用。

常用场景

经典使用场景

cota-mantis数据集的经典使用场景主要集中在多模态语言模型的微调上，特别是用于生成复杂的思维链和行动链（Chains-of-Thought-and-Action, CoTA）。该数据集通过包含15种不同的行动（如OCR、深度估计、计算器等）和最终的终止行动，帮助模型在推理过程中执行中间步骤并整合结果，从而生成连贯的响应。这种设计使得模型能够在处理复杂的多步骤、多模态任务时表现出色，尤其是在涉及视觉、数学和空间推理的任务中。

解决学术问题

cota-mantis数据集解决了多模态推理领域中的一个关键问题，即如何通过结构化的多步骤指令调优来提升模型的复杂推理能力。传统的指令调优数据集通常只提供直接答案，而该数据集通过引入合成思维链和行动链，使得模型能够学习到更复杂的推理路径。这不仅提高了模型在多模态任务中的表现，还为未来的多模态模型研究设定了新的标准，推动了开放源码多模态模型能力的进步。

衍生相关工作

cota-mantis数据集的发布催生了一系列相关的经典工作，特别是在多模态语言模型的训练和评估方面。例如，基于该数据集的TACO模型在多个基准测试中表现优异，展示了其在复杂多模态任务中的强大能力。此外，该数据集还启发了其他研究者开发类似的合成思维链和行动链数据集，进一步推动了多模态推理领域的研究。这些衍生工作不仅提升了模型的性能，还为多模态模型的实际应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集