Mulberry-260k

Name: Mulberry-260k
Creator: 南洋理工大学, 清华大学, 百度公司, 中山大学
Published: 2024-12-24 18:07:51
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

https://github.com/HJYao00/Mulberry

下载链接

链接失效反馈

官方服务：

资源简介：

Mulberry-260k是由南洋理工大学、清华大学、百度公司和中山大学联合创建的多模态学习推理和反思数据集，包含260,000条数据。每条数据都包含一个问题的推理节点树，这些节点丰富、明确且定义良好。数据集通过集体蒙特卡洛树搜索（CoMCTS）方法构建，旨在训练具有逐步推理和反思能力的多模态大语言模型（MLLM）。该数据集的应用领域主要集中在提升MLLM在复杂任务中的推理能力，尤其是在需要深入推理的领域，如数学和视觉语言理解。

Mulberry-260k is a multimodal learning, reasoning and reflection dataset jointly developed by Nanyang Technological University, Tsinghua University, Baidu Inc., and Sun Yat-sen University, which contains 260,000 data entries. Each entry includes a reasoning node tree for a specific question, where the nodes are abundant, explicit and well-defined. The dataset is constructed using the Collective Monte Carlo Tree Search (CoMCTS) method, and is designed to train multimodal large language models (MLLMs) with step-by-step reasoning and reflection capabilities. Its application scenarios primarily focus on enhancing the reasoning performance of MLLMs in complex tasks, especially in domains that demand in-depth reasoning such as mathematics and vision-language understanding.

提供机构：

南洋理工大学, 清华大学, 百度公司, 中山大学

创建时间：

2024-12-24

原始信息汇总

Mulberry 数据集概述

数据集名称

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

数据集发布信息

发布日期: 2024年12月24日
发布平台: arXiv
论文链接: https://arxiv.org/abs/2412.18319

数据集作者

主要作者:
- Huanjin Yao (清华大学, 百度)
- Jiaxing Huang (南洋理工大学, 通讯作者)
- Wenhao Wu (百度)
- Jingyi Zhang (南洋理工大学)
- Yibo Wang (清华大学)
- Shunyu Liu (南洋理工大学)
- Yingjie Wang (南洋理工大学)
- Yuxin Song (百度)
- Haocheng Feng (百度)
- Li Shen (中山大学)
- Dacheng Tao (南洋理工大学)

数据集贡献机构

南洋理工大学
清华大学
百度
中山大学

数据集简介

Mulberry 数据集旨在通过集体蒙特卡洛树搜索（Collective Monte Carlo Tree Search）增强多模态大语言模型（MLLM）的推理和反思能力，使其具备类似o1的推理能力。

搜集汇总

数据集介绍

构建方式

Mulberry-260k数据集的构建基于集体蒙特卡洛树搜索（CoMCTS）方法，该方法通过引入集体学习的概念，结合多个多模态大语言模型（MLLMs）的协同推理能力，逐步扩展、模拟、回溯和选择有效的推理路径。具体而言，CoMCTS通过迭代操作，包括扩展、模拟与错误定位、回溯传播和选择，构建了一个包含丰富、明确且定义良好的推理节点的多模态数据集。每个问题都对应一个推理树，树中的节点代表推理过程中的中间步骤，最终形成包含问题、答案和推理路径的三元组。

使用方法

Mulberry-260k数据集主要用于训练具有逐步推理和反思能力的多模态大语言模型（MLLMs）。通过集体监督微调（CoSFT），模型可以从数据集中学习有效的推理路径和反思路径。具体而言，模型通过最大化推理路径和反思路径的对数概率来进行训练，从而提升其在复杂任务中的推理和反思能力。此外，数据集还可用于评估模型在逐步推理任务中的表现，特别是在数学、图表理解和多学科推理等领域。

背景与挑战

背景概述

Mulberry-260k数据集是由Huanjin Yao、Jiaxing Huang等研究人员于2024年提出的，旨在通过集体蒙特卡洛树搜索（CoMCTS）方法，构建一个多模态学习推理与反思的数据集。该数据集的核心研究问题是提升多模态大语言模型（MLLMs）在复杂任务中的推理能力，特别是通过明确的中间推理步骤来逐步解决问题。Mulberry-260k的构建基于CoMCTS算法，该算法通过引入集体学习的概念，结合多个模型的协同推理路径搜索，显著提高了推理的有效性和效率。该数据集对多模态推理领域的研究具有重要影响，为模型训练提供了丰富的推理节点和明确的推理路径。

当前挑战

Mulberry-260k数据集在构建过程中面临的主要挑战包括：1）推理路径搜索的有效性问题，传统蒙特卡洛树搜索方法在单一模型的推理空间中容易陷入低质量节点，导致搜索成功率较低；2）搜索效率问题，传统方法每次迭代仅扩展一个推理节点，导致计算密集型MLLMs的效率低下。此外，数据集的构建需要处理多模态输入（如图像和文本），并确保每个问题的推理节点丰富且明确，这对数据标注和模型训练提出了更高的要求。通过CoMCTS算法，研究人员成功解决了这些挑战，显著提升了推理路径搜索的成功率和效率。

常用场景

经典使用场景

Mulberry-260k数据集在多模态大语言模型（MLLM）的研究中，主要用于训练和评估模型的分步推理和反思能力。通过其丰富的推理节点树结构，该数据集能够帮助模型在复杂的多模态任务中生成明确的中间推理步骤，从而提升模型的理解和推理能力。

解决学术问题

Mulberry-260k数据集解决了当前多模态大语言模型在复杂推理任务中表现不佳的问题。通过引入集体蒙特卡洛树搜索（CoMCTS）方法，该数据集能够有效地搜索和识别推理路径，帮助模型在推理过程中生成明确的中间步骤，从而提升模型在复杂任务中的表现。这一方法不仅提高了推理的成功率，还显著减少了搜索迭代次数，提升了推理效率。

实际应用

Mulberry-260k数据集在实际应用中，能够显著提升多模态大语言模型在数学推理、图表理解、科学问题解答等领域的表现。例如，在教育领域，该数据集可以帮助开发智能辅导系统，通过分步推理和反思能力，为学生提供详细的解题步骤和错误纠正。在医疗领域，该数据集可以用于开发智能诊断系统，帮助医生通过多模态数据（如图像和文本）进行更准确的诊断。

数据集最近研究