ULTRAINTERACT

Name: ULTRAINTERACT
Creator: 清华大学、东北大学、面壁智能、腾讯等
Published: 2024-04-02 00:00:00
License: 暂无描述

github2024-04-02 更新2024-05-31 收录

下载链接：

https://github.com/OpenBMB/Eurus

下载链接

链接失效反馈

官方服务：

资源简介：

The strong performance of Eurus can be primarily attributed to UltraInteract, a large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format (2) multi-turn interaction trajectories with the environment and the critique (3) pairwise data to facilitate preference learning

Eurus的优异性能主要可归因于UltraInteract——一款专为复杂推理任务设计的大规模高质量对齐数据集（alignment dataset）。针对每条指令，该数据集包含一棵偏好树，具体组成如下：(1) 采用统一格式、涵盖多样化规划策略的推理链；(2) 与环境交互并带有评判反馈的多轮交互轨迹；(3) 用于辅助偏好学习的成对数据。

提供机构：

清华大学、东北大学、面壁智能、腾讯等

创建时间：

2024-04-02

原始信息汇总

数据集概述

数据集名称

UltraInteract

数据集描述

UltraInteract 是一个大规模、高质量的对齐数据集，专为复杂推理任务设计。每个指令包含一个偏好树，包括：

推理链，采用统一格式的多样化规划策略
与环境和批评的多轮交互轨迹
促进偏好学习的成对数据

数据集结构

UltraInteract 为每个指令收集一个偏好树，指令作为根，每个动作作为一个节点。轨迹是从根到叶的路径，由一系列动作组成。在每个偏好树中，所有正确动作的节点和以正确动作为结尾的轨迹可用于监督微调（SFT）。成对的正确和错误节点或轨迹可用于偏好学习。

数据集统计

包含86k指令
286k正确答案
219k成对数据

数据集应用

UltraInteract 已被用于训练多个模型，包括：

Eurux-8x22B-NCA 和 Eurux-8x22B-KTO：从 Mixtral-8x22B 微调，用于所有多轮轨迹对和所有 UltraFeedback 中的对。
Eurus-7B-SFT 和 Eurus-70B-SFT：从 Mistral-7B 和 CodeLLaMA-70B 微调，混合了 UltraChat、ShareGPT 和 OpenOrca 的示例。
Eurus-7B-KTO 和 Eurus-70B-NCA：在 SFT 模型基础上进行偏好微调。
Eurus-RM-7B：在 UltraInteract、UltraFeedback 和 UltraSafety 的混合数据上训练。

数据集格式

SFT 和 Preference Learning：数据以 JSONC 格式存储，包含唯一数据 ID、父 ID、任务类型、数据集来源、指令和响应等字段。

数据集评估

Eurux-8x22b-NCA 和 Eurux-8x22b-KTO 在编码、数学、推理、知识、指令遵循和聊天基准测试中表现出色。
Eurus-7B 和 Eurus-70B 在开放源代码模型中达到最佳整体性能，甚至在许多情况下优于专门模型。
Eurus-RM-7B 作为最佳 7B RM 总体，在某些任务中甚至优于 GPT-4。

数据集引用

bib @misc{yuan2024advancing, title={Advancing LLM Reasoning Generalists with Preference Trees}, author={Lifan Yuan and Ganqu Cui and Hanbin Wang and Ning Ding and Xingyao Wang and Jia Deng and Boji Shan and Huimin Chen and Ruobing Xie and Yankai Lin and Zhenghao Liu and Bowen Zhou and Hao Peng and Zhiyuan Liu and Maosong Sun}, year={2024}, eprint={2404.02078}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总

数据集介绍

构建方式

ULTRAINTERACT数据集的构建方式独具匠心，专门针对复杂推理任务设计。该数据集通过收集每条指令的偏好树结构，确保了推理链的多样性和规划策略的统一性。每个偏好树以指令为根节点，每个动作作为节点，形成从根到叶的路径，即推理轨迹。此外，数据集还包含了多轮交互轨迹，涵盖了环境反馈和批判性分析，以及用于偏好学习的成对数据，从而全面支持模型在推理任务中的训练与优化。

特点

ULTRAINTERACT数据集的显著特点在于其大规模、高质量的数据结构和多样化的推理策略。数据集包含了86,000条指令、286,000个正确答案和219,000对成对数据，确保了数据的丰富性和多样性。其偏好树结构不仅支持监督微调（SFT），还通过成对数据促进了偏好学习，使得模型能够在复杂的推理任务中表现出色，特别是在多轮交互和指令跟随能力方面。

使用方法

ULTRAINTERACT数据集的使用方法灵活多样，适用于多种任务类型，包括编码、数学、逻辑等。用户可以通过访问Hugging Face上的数据集链接，获取SFT和偏好学习数据。数据集的JSON格式清晰，包含了每条指令的唯一ID、父ID、任务类型、数据来源、指令内容以及详细的推理步骤和响应。用户可以根据需求选择不同的任务类型进行模型训练，利用数据集中的偏好树结构和多轮交互轨迹，提升模型的推理能力和指令跟随能力。

背景与挑战

背景概述

ULTRAINTERACT数据集是由OpenBMB团队于2024年发布的，旨在支持复杂推理任务的大型高质量对齐数据集。该数据集的核心研究问题是如何通过多轮交互和偏好学习提升大语言模型（LLMs）的推理能力。ULTRAINTERACT不仅包含了推理链和多轮交互轨迹，还引入了偏好树结构，以促进模型在复杂任务中的表现。该数据集的发布对自然语言处理领域具有重要意义，尤其是在提升模型在编码、数学、逻辑推理等任务中的表现方面。

当前挑战

ULTRAINTERACT数据集在构建过程中面临多项挑战。首先，如何设计一个能够捕捉复杂推理过程的多轮交互轨迹是一个关键问题。其次，偏好树的构建需要大量的计算资源和数据标注，以确保每个指令的正确性和多样性。此外，数据集的规模和质量要求极高，以支持大语言模型的训练和评估。在应用层面，如何有效利用ULTRAINTERACT进行模型微调和偏好学习，以提升模型在实际任务中的表现，也是一个重要的挑战。

常用场景

经典使用场景

ULTRAINTERACT数据集的经典使用场景主要集中在复杂推理任务的训练与评估上。该数据集通过包含多轮交互轨迹和偏好树结构，为大语言模型（LLMs）提供了丰富的推理链和策略多样性。具体而言，ULTRAINTERACT可用于监督微调（SFT）和偏好学习，帮助模型在编码、数学、逻辑推理等任务中提升表现，尤其是在多轮对话和指令遵循能力方面。

衍生相关工作

ULTRAINTERACT数据集的发布催生了一系列相关研究工作，特别是在大语言模型的推理能力优化方面。基于该数据集，研究者们开发了多种模型变体，如Eurus-70B和Eurux-8x22B，这些模型在推理任务中表现出色。此外，ULTRAINTERACT还与其他数据集（如UltraFeedback和UltraSafety）结合使用，进一步提升了奖励模型的性能，推动了推理任务在实际应用中的广泛应用。

数据集最近研究