CRAB

github2024-11-01 更新2024-11-28 收录

下载链接：

https://github.com/THU-KEG/Crab

下载链接

链接失效反馈

官方服务：

资源简介：

CRAB是一个高质量的复杂指令跟随数据集，通过约束反向翻译技术生成，旨在提高大型语言模型在复杂指令跟随任务中的表现。

CRAB is a high-quality complex instruction following dataset. It is generated via constrained back-translation techniques, and is aimed at improving the performance of large language models (LLMs) in complex instruction following tasks.

创建时间：

2024-10-31

原始信息汇总

CRAB 数据集概述

数据集简介

CRAB 数据集是一个用于复杂指令跟随的高质量指令-响应数据集，通过约束反向翻译技术生成。该数据集旨在提升大型语言模型（LLMs）在复杂指令跟随任务中的表现。

数据集构建

数据准备

种子数据来源：
- Open-Assistant Dataset
- WizardLM Dataset
- Alpaca_GPT4 Dataset
- Orca-Chat Dataset
- ShareGPT Dataset

数据生成

数据收集：执行 Crab_0_Data_Collection.sh 脚本收集高质量种子数据。
约束反向翻译：执行 Crab_1_Constraint_Back_Translation.sh 脚本生成约束。
约束组合：执行 Crab_2_Constraint_Combination.sh 脚本组合约束，生成最终训练数据。

训练与评估

训练

Mistral-7B 模型：使用 alignment-handbook 进行训练。
LLaMA-3-8B 模型：使用 open-instruct 进行训练。

评估

评估基准：
- IFEval
- FollowBench

数据集下载

CRAB 数据集：可直接从 HF repo 下载。

引用

bibtex @misc{qi2024constraintbacktranslationimprovescomplex, title={Constraint Back-translation Improves Complex Instruction Following of Large Language Models}, author={Yunjia Qi and Hao Peng and Xiaozhi Wang and Bin Xu and Lei Hou and Juanzi Li}, year={2024}, eprint={2410.24175}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.24175}, }

搜集汇总

数据集介绍

构建方式

在构建CRAB数据集的过程中，研究者们首先从多个高质量的现有数据集中提取了高质量的指令-响应对，这些数据集包括Open-Assistant、WizardLM、Alpaca_GPT4、Orca-Chat和ShareGPT。随后，通过执行一系列脚本，如数据收集、约束回译和约束组合，将这些高质量的指令-响应对转化为具有复杂约束的指令-响应对。具体而言，约束回译技术被用于将现有响应中已满足的复杂约束添加到指令中，从而生成高质量的复杂指令-响应数据集。

特点

CRAB数据集的主要特点在于其通过约束回译技术生成的复杂指令-响应对，这些对不仅保留了原始数据的高质量，还引入了额外的复杂约束，从而提升了大型语言模型（LLMs）在复杂指令跟随任务中的表现。此外，CRAB数据集的构建过程高度可定制，允许用户根据自身需求生成定制化的数据集，增强了其在不同应用场景中的适应性。

使用方法

使用CRAB数据集进行模型训练时，用户可以根据模型架构选择不同的训练框架。例如，基于Mistral-7B的模型可以使用alignment-handbook进行训练，而基于LLaMA-3-8B的模型则可以参考open-instruct仓库中的指导。此外，CRAB数据集还提供了详细的评估基准，如IFEval和FollowBench，用户可以通过这些基准来评估模型在复杂指令跟随任务中的表现。

背景与挑战

背景概述

在大型语言模型（LLMs）的发展过程中，遵循复杂指令的能力一直是研究的重点。清华大学知识工程组（THU-KEG）的研究人员发现，现有的数据集在生成过程中隐含了复杂的约束条件，这些约束条件限制了LLMs在复杂指令遵循方面的表现。为此，他们提出了一种名为‘约束反向翻译’的新数据生成技术，通过利用现有高质量指令-响应对，仅在指令中添加已满足的复杂约束，从而降低成本和数据噪声。基于此技术，他们创建了名为CRAB的高质量复杂指令-响应数据集，旨在提升LLMs在复杂指令遵循任务中的表现。

当前挑战

CRAB数据集的构建面临多个挑战。首先，如何从现有数据集中提取高质量的指令-响应对，并确保这些对在复杂约束条件下仍然有效，是一个技术难题。其次，约束反向翻译技术的实施需要高级LLMs的支持，这不仅增加了计算成本，还可能引入数据噪声。此外，数据集的多样性和覆盖范围也是一个挑战，确保数据集能够全面反映复杂指令的多样性，从而提升LLMs的泛化能力。最后，评估LLMs在复杂指令遵循任务中的表现时，需要依赖于广泛的指令遵循基准，这增加了评估的复杂性和成本。

常用场景

经典使用场景

在自然语言处理领域，CRAB数据集的经典使用场景主要体现在对大型语言模型（LLMs）进行复杂指令跟随能力的提升。通过约束反向翻译技术，CRAB数据集能够生成高质量的复杂指令-响应对，这些数据对在模型微调过程中起到关键作用。具体而言，研究人员可以利用CRAB数据集对LLMs进行后训练，以增强其在处理格式、长度等复杂约束指令时的表现。

实际应用

在实际应用中，CRAB数据集被广泛用于提升各类大型语言模型在复杂指令处理任务中的表现。例如，在智能客服、自动化文档生成和编程辅助等领域，模型需要准确理解和执行包含多种约束的复杂指令。通过使用CRAB数据集进行模型训练，可以显著提高这些应用场景下的模型性能，从而提升用户体验和工作效率。

衍生相关工作

CRAB数据集的提出催生了多项相关研究工作。例如，基于CRAB的约束反向翻译技术，研究人员开发了多种改进的指令跟随模型，这些模型在多个指令跟随基准测试中表现优异。此外，CRAB数据集还被用于探索新的训练目标和方法，如辅助训练目标的引入，进一步推动了大型语言模型在复杂指令处理方面的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集