llm-blender/mix-instruct

Name: llm-blender/mix-instruct
Creator: llm-blender
Published: 2023-06-09 02:21:01
License: 暂无描述

Hugging Face2023-06-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llm-blender/mix-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

MixInstruct数据集是为LLM-Blender项目发布的，包含了11个当前流行的指令跟随LLM的响应。这些LLM包括Stanford Alpaca、FastChat Vicuna、Dolly V2、StableLM、Open Assistant、Koala、Baize、Flan-T5、ChatGLM、MOSS和Moasic MPT。数据集使用自动指标（如BLEU、ROUGE、BERTScore、BARTScore）进行评估，并通过ChatGPT对4771个测试样本进行成对比较。数据格式为JSON，包含指令、输入、输出和候选响应，每个候选响应都有详细的评分。

The MixInstruct dataset was released for the LLM-Blender project. It encompasses responses generated by 11 currently prevalent instruction-following large language models (LLMs), namely Stanford Alpaca, FastChat Vicuna, Dolly V2, StableLM, Open Assistant, Koala, Baize, Flan-T5, ChatGLM, MOSS, and Mosaic MPT. The dataset is evaluated using automatic metrics including BLEU, ROUGE, BERTScore, and BARTScore, and pairwise comparisons are conducted on 4771 test samples via ChatGPT. The dataset adopts the JSON format, which includes instructions, inputs, outputs, and candidate responses, with detailed scoring information for each candidate response.

提供机构：

llm-blender

原始信息汇总

数据集概述

基本信息

数据集名称: MixInstruct
所属项目: LLM-Blender
许可证: MIT
任务类别: 文本生成
语言: 英语
数据集大小: 100K<n<1M

数据内容

包含模型: 数据集包含来自11个流行指令遵循型LLMs的11个响应，包括Stanford Alpaca, FastChat Vicuna, Dolly V2, StableLM, Open Assistant, Koala, Baize, Flan-T5, ChatGLM, MOSS, 和 Moasic MPT。
评估指标: 使用自动评估指标，包括BLEU, ROUGE, BERTScore, BARTScore，并提供通过ChatGPT进行的成对比较结果。

数据格式

数据结构: JSON格式，每个条目包含id, instruction, input, output, 和 candidates字段。
额外字段: 通过ChatGPT评估的示例包含cmp_results字段，该字段用于记录模型间的比较结果。

评估结果

自动评估指标: 提供了训练、验证和测试集的详细评估结果，包括各模型的性能指标。
ChatGPT比较结果: 提供了基于ChatGPT的模型比较结果，包括BERTScore, BARTScore, BLEURT, GPT-Rank等指标。

最佳模型性能

最佳模型: 根据提供的评估结果，Open Assistant在多个指标上表现最佳。
Oracle模型: 提供了Oracle模型的性能作为参考，与最佳模型进行比较。

搜集汇总

数据集介绍

构建方式

在指令微调语言模型蓬勃发展的背景下，MixInstruct数据集通过系统化集成策略构建而成。其核心方法在于汇集了来自十一种主流指令跟随大语言模型对同一批指令的多样化响应，这些模型涵盖了从Alpaca到ChatGLM等广泛使用的代表性系统。数据构建过程不仅收集了原始文本输出，还运用了包括BLEU、ROUGE、BERTScore在内的多种自动评估指标对每个响应进行量化评分。尤为关键的是，研究团队进一步利用ChatGPT对测试集中的大量样本进行了精细化的两两比较评估，从而生成了包含模型间相对优劣判断的配对比较结果，为深入分析模型性能差异提供了多维度的数据基础。

特点

该数据集最显著的特征在于其提供的多模型响应对比框架。每个数据实例均围绕同一指令，呈现了多达十一个不同模型的生成结果，并附有详尽的自动化评估分数，构成了一个密集的、可横向比较的评估矩阵。数据集超越了单一的文本集合，其价值体现在精心设计的结构化元数据上，包括解码方法、模型来源以及涵盖流畅度、相关性和语义相似度等多个维度的量化指标。特别引入的、由大语言模型标注的配对比较结果，为理解不同模型在细粒度上的表现差异提供了宝贵的人工智能反馈视角，使其成为研究模型融合与评估的独特资源。

使用方法

该数据集主要服务于大语言模型的比较、评估与融合技术研究。使用者可以加载JSON格式的数据，每个条目包含指令、标准答案及各候选模型的响应与其对应的自动化评估分数。通过解析‘cmp_results’字段，可以获得由ChatGPT生成的模型间两两比较的定性判断。研究人员可借此进行深入的统计分析，例如计算不同模型的胜率、分析各自动指标与人工偏好的一致性，或开发新的模型选择与响应融合算法。数据集划分了训练、验证和测试集，确保了方法开发与评估的严谨性，为构建如LLM-Blender之类的模型集成系统提供了关键的训练与评测基准。

背景与挑战

背景概述

MixInstruct数据集由LLM-Blender项目团队于2023年发布，旨在应对大型语言模型在指令跟随任务中性能评估的复杂性。该数据集汇集了来自斯坦福Alpaca、FastChat Vicuna、Dolly V2等11个主流指令跟随模型的响应，并采用自动化指标与ChatGPT人工评估相结合的方法，为模型性能提供了多维度的量化分析。其核心研究问题聚焦于如何系统性地比较不同语言模型在开放域指令理解与生成任务中的表现，从而推动模型融合与优化技术的发展，为自然语言处理领域的模型评估体系建立了新的基准。

当前挑战

MixInstruct数据集致力于解决指令跟随语言模型性能评估的挑战，其核心在于如何准确量化模型在开放域指令理解与生成任务中的综合能力。构建过程中面临多重困难：首先，整合来自不同架构与训练范式的模型响应需确保数据格式的统一性与可比性；其次，自动化评估指标如BLEU、ROUGE等与人类评判之间存在固有偏差，需通过ChatGPT进行大规模人工比对以校准结果；此外，部分数据因API过滤机制而丢失，导致评估样本的不完整性，这些因素共同构成了数据集构建与应用的复杂性。

常用场景

经典使用场景

在大型语言模型（LLM）的评估与优化领域，MixInstruct数据集为研究者提供了一个标准化的基准测试平台。该数据集汇集了来自11种主流指令跟随型LLM的多样化响应，覆盖了从Alpaca到Vicuna等前沿模型。通过精心设计的指令-输入-输出三元组结构，研究者能够系统性地比较不同模型在文本生成任务中的表现，从而揭示各模型在语义理解、流畅度及事实准确性等方面的差异。这种多模型响应对比机制，为深入探索LLM的能力边界奠定了坚实基础。

衍生相关工作

基于MixInstruct数据集，学术界衍生出多项经典研究工作。LLM-Blender项目利用该数据训练了高效的响应融合框架，通过PairRanker与GenFuser模块实现多模型优势互补。后续研究进一步探索了基于强化学习的响应选择策略，以及跨模型知识蒸馏方法。这些工作不仅深化了对LLM协同机制的理解，还催生了如MixEVAL等新型评估工具，推动了模型融合技术在开放域对话、代码生成等场景的落地应用。

数据集最近研究